La belleza de los 20 tokens por segundo: por qué uso IA local para pensar más lento

Muchas veces estamos obsesionados con el camino rápido.

Queremos la respuesta ahora. El resumen ahora. El borrador ahora. La idea ahora.

Los modelos de IA en la nube están diseñados para satisfacer esa ansiedad. Son maravillas de ingeniería capaces de producir párrafos prolijos, planes estructurados y documentos completos en cuestión de segundos. Antes de que termines el café, la máquina ya puede darte algo que parece terminado.

Y ahí está, justamente, el problema.

Últimamente empecé a sentir una especie de vértigo cognitivo cuando trabajo con modelos demasiado rápidos. La respuesta llega tan rápido, tan segura y tan completa que muchas veces siento que entro tarde a la conversación. El modelo ya tomó decisiones. Ya encuadró el problema. Ya eligió qué era importante y qué no.

Yo quedo en el rol de revisar un resultado, no de participar en el pensamiento.

Ahí empieza la Zona de No Desarrollo.

En mi artículo anterior, definí la Zona de No Desarrollo como ese espacio donde la IA nos facilita la tarea, pero también nos quita la fricción que nos hubiera ayudado a crecer. Es el lugar donde la eficiencia se vuelve tan cómoda que, sin darnos cuenta, reemplaza al aprendizaje.

Entonces, para evitar esa zona, no busqué un modelo más rápido.

Busqué otro ritmo.

Me fui a lo local.

Mi homelab como regulador cognitivo

Mi entorno actual de pensamiento no es solamente una suscripción o una pestaña del navegador. También es una máquina física que tengo en mi oficina frente a mi: una Beelink SER9 Pro con un AMD Ryzen AI 9 HX 370, configurada para dedicar una buena parte de su memoria a cargas de trabajo de IA local.

Uso herramientas como Ollama, OpenWebUI, n8n y OpenClaw para correr modelos locales, conectarlos con mi propia base de conocimiento y experimentar con distintos flujos de trabajo.

Cuando cargo modelos pesados, no obtengo la velocidad instantánea de un gran centro de datos. En general, veo una generación estable de alrededor de 20 tokens por segundo.

En un mundo obsesionado con el rendimiento, eso podría parecer una limitación.

Para mí, se convirtió en un regulador cognitivo.

A esa velocidad, la IA no se siente como una máquina expendedora que entrega un producto terminado. Se siente más como una compañera de pensamiento visible. El texto aparece a un ritmo que me permite leer, cuestionar, comparar, interrumpir y pensar junto con el modelo.

La máquina no simplemente genera.

Se despliega.

Y como se despliega lo suficientemente lento, yo puedo seguir participando.

Ver pensar a la máquina

Uno de los cambios más importantes en mi forma de trabajar fue poder observar los patrones de razonamiento del modelo mientras se desarrollan.

Con modelos locales, especialmente cuando habilito el modo verboso o uso prompts orientados al razonamiento, puedo ver hacia dónde va la respuesta mientras todavía se está formando. Puedo notar qué categorías está construyendo el modelo, qué supuestos está tomando, qué evidencia está priorizando y en qué momento empieza a desviarse.

Esto importa porque los errores de la IA no aparecen solamente al final.

A veces el problema empieza en las primeras líneas.

El modelo puede haber entendido mal la tarea. Puede generalizar demasiado. Puede elegir un marco equivocado. Puede empezar a escribir algo que suena correcto, pero que claramente se está alejando del propósito real.

Cuando el modelo es demasiado rápido, muchas veces veo el error recién después de que produjo una respuesta pulida de 800 palabras. En ese momento, ya no estoy guiando el pensamiento. Estoy limpiando el resultado.

Pero cuando la generación ocurre a velocidad humana, puedo detectar el desvío antes.

Puedo frenarlo.

Puedo redirigirlo.

Puedo decir: “No, este no es el punto.”

Ese pequeño gesto importa. El botón de Stop deja de ser una función técnica y se convierte en un símbolo de agencia intelectual.

No estoy esperando pasivamente a que la máquina termine.

Estoy decidiendo activamente si el pensamiento todavía sirve.

Human-in-the-loop no es una casilla para marcar

En muchas conversaciones sobre IA, human-in-the-loop suena como un término de gobernanza. Suele significar que una persona revisa el resultado antes de aprobarlo.

Eso es importante, pero no alcanza.

Para mí, una verdadera integración human-in-the-loop implica participar durante el proceso, no solamente al final. Significa estar lo suficientemente cerca de la generación como para poder modificar la dirección mientras el pensamiento todavía está vivo.

Ahí es donde la IA local cambió mi relación con la herramienta.

El ritmo más lento me obliga a volver al trabajo. No puedo tercerizar todo el proceso cognitivo y volver después solamente para aprobarlo. Tengo que leer. Tengo que comparar. Tengo que decidir. Tengo que notar cuándo el modelo me está ayudando a pensar y cuándo está intentando pensar por mí.

Esa diferencia es clave.

Porque el objetivo no es solamente producir mejor contenido.

El objetivo es convertirme en un mejor pensador durante el proceso.

El cap de velocidad que todavía no tenemos

A veces pienso que, así como en un videojuego puedo limitar los FPS (cuadros por segundo) para tener una experiencia más estable, también me gustaría poder limitar los TPS (tokens por segundo) en los modelos online.

No porque el modelo no pueda ir más rápido.

Sino porque yo no siempre quiero que vaya más rápido.

En gaming, un límite de FPS puede reducir ruido, temperatura, consumo y saltos innecesarios. No siempre se trata de exprimir cada cuadro posible. A veces se trata de lograr una experiencia más fluida, estable y controlada.

Con la IA me pasa algo parecido.

No siempre necesito que el modelo me entregue una respuesta completa en tres segundos. A veces quiero ver cómo se construye. Quiero poder leer mientras aparece. Quiero detectar si el razonamiento empieza a desviarse antes de que se convierta en una pared de texto perfectamente escrita, pero conceptualmente equivocada.

Me gustaría poder decirle a un modelo online: “No corras. Andá a 20 tokens por segundo.”

Ese límite no sería una falla de rendimiento. Sería una decisión de diseño cognitivo.

Sería una forma de proteger mi atención, mi criterio y mi participación en el proceso.

Porque el problema no es que la IA sea rápida. El problema es cuando la velocidad nos deja afuera del pensamiento.

Un segundo cerebro y muchos sombreros

Este flujo de trabajo más lento funciona porque el modelo no empieza desde cero.

Mi setup local está conectado con lo que pienso como mi Segundo Cerebro: un ecosistema de notas, documentos, bóvedas de Obsidian, archivos curados, LLM Wikis y conocimiento estructurado que le da mejor contexto a la IA.

A eso suelo llamarlo Nutrición de IA.

La calidad de la respuesta depende mucho de la calidad de lo que alimenta al sistema. Si le doy al modelo contexto desordenado, viejo o genérico, no debería sorprenderme que el resultado sea superficial. Pero cuando le doy conocimiento curado, límites claros e instrucciones bien diseñadas, el modelo se vuelve mucho más útil.

Acá también entran los Mini Brains.

Un Mini Brain es un archivo pequeño y estructurado que define cómo debe comportarse una IA para una tarea específica. Le da al modelo un rol, un propósito, reglas, límites y un marco de conocimiento. En términos prácticos, me permite cambiar de lente sin tener que reconstruir todo el contexto desde cero.

Puedo cargar un Mini Brain de auditor crítico cuando necesito que una propuesta sea cuestionada.

Puedo cambiar a un Mini Brain de diseñador de experiencias de aprendizaje cuando quiero identificar puntos de fricción pedagógica.

Puedo usar un Mini Brain de arquitecto de sistemas cuando necesito evaluar si una idea es técnicamente viable.

Cada Mini Brain es un sombrero distinto.

Pero como la conversación se mueve a velocidad humana, cambiar de sombrero no se siente como enviar pedidos aislados a una máquina. Se siente como cambiar de perspectiva dentro del mismo proceso de pensamiento.

Ese es el valor real.

La IA no solo me da respuestas. Me ayuda a moverme entre distintos modos de pensar.

Fricción productiva en un mundo sin fricción

Muchas veces nos dicen que la fricción es enemiga de la productividad.

En algunos casos, es cierto. La mala fricción hace perder tiempo. Herramientas confusas, procesos rotos, instrucciones poco claras y burocracia innecesaria hacen que el trabajo sea más difícil sin hacerlo mejor.

Pero no toda fricción es mala.

En el aprendizaje, cierta fricción es necesaria. Necesitamos resistencia. Necesitamos tensión. Necesitamos momentos donde la respuesta no aparece de inmediato, porque esos momentos nos obligan a ordenar ideas, probar supuestos y construir comprensión.

A eso lo llamo fricción productiva.

Mi setup de IA local me devuelve esa fricción.

Ralentiza el proceso lo suficiente como para mantenerme presente. Evita que me convierta en un consumidor pasivo de texto generado por una máquina. Hace que usar IA se sienta menos como recibir una respuesta y más como participar en un diálogo.

Y eso cambia el resultado.

Cuando termina el proceso, no tengo solamente un borrador, un resumen o un plan.

Tengo una comprensión más clara del problema.

Tengo una idea más firme de lo que pienso.

Aprendí algo.

Por qué más lento puede ser mejor

No estoy diciendo que todo el mundo necesite un homelab.

Tampoco estoy diciendo que la IA en la nube sea mala.

Los modelos en la nube son increíblemente útiles. Son potentes, accesibles y muchas veces son la mejor opción cuando necesitamos velocidad, escala o comodidad. Yo también los uso. Son parte de mi flujo de trabajo.

Pero ya no creo que más rápido sea siempre mejor.

A veces, más rápido significa pensar menos.

A veces, la respuesta instantánea reduce el espacio donde debería aparecer la reflexión.

A veces, el sistema de IA más valioso no es el que te da una respuesta inmediata, sino el que te mantiene involucrado el tiempo suficiente como para entender cómo se está construyendo esa respuesta.

Para mí, 20 tokens por segundo se convirtieron en un recordatorio.

Un recordatorio para bajar la velocidad.

Un recordatorio para seguir participando.

Un recordatorio de que el propósito de la IA no es sacarme del proceso, sino ayudarme a ser más capaz dentro de él.

Porque el verdadero éxito no es terminar la tarea más rápido.

El verdadero éxito es ser más capaz que cuando empezaste.