La lavadora no sabe qué es centrifugar

Los coches de Estados Unidos acostumbraban a usar palabras en los botones, como "HORN" en lugar de 📯 (ahora son pantallas). Muchos semáforos iluminan alternativamente las palabras "WALK" y "DON'T WALK". Esto, obviamente, lo permite la nula diversidad de idiomas en el amplísimo territorio que es Estados Unidos (y Canadá), o la nula intención de reconocerla.

Para la mayoría de personas el output de un terminal de ordenador es poco menos que un galimatías arcano cuya función principal es mostrar que está habiendo actividad en la máquina, que está "pensando". Vemos una muestra clara de este fenómeno en la mítica animación de Matrix que muestra la vida de las máquinas combinando símbolos y texto en unas cascadas verticales sin orden ni concierto en un verde y con una iluminada "scanline" basada en los monitores de fósforo de antaño. Como si las máquinas fuesen a seguir necesitando mostrar lo que están haciendo en una pantalla si no trabajan para los humanos.

0:00

/0:00

En realidad el terminal muestra texto para humanos, está en inglés (casi siempre). No son matemáticas avanzadas ni un idioma nuevo (aunque la terminología está adaptada y resumida; jerga, tecnicismos...). Alguien ha escrito esas palabras para comunicarte lo que está haciendo el software. De la misma manera que todos los lenguajes de programación son adaptaciones de humano a máquina. Incluso los ceros y unos son una humanización del paso e interrupción del voltaje, una traducción.

Elon Musk lleva vendiéndonos la conducción autónoma desde hace 10 años, incluso asegurando que es/será mejor que los humanos y más segura. No ha pasado, tampoco va a pasar. Benn Jordan hablaba en un video de que la tasa de mortalidad del FSD (Full Self-Drive) se situaba cerca de 10 veces por encima de la de los conductores humanos (Humanos 1.35 muertos/100 millas, Tesla FSD: 11.3 muertos/100 millas, 2023/24). La idea de que hay un nivel de acumulación de data de conducción suficiente como para que el ordenador pueda reaccionar a todas las variables que el entrópico mundo puede ofrecer, a tiempo, es delusional at best. Y si la alternativa es que el humano tome el control en los momentos críticos, el Full de Full Self-Drive se vuelve un poco filfa. La certificación de vehículo completamente autónomo asume que se fabrica sin volante y que no hace falta un conductor de guardia.

0:00

/0:03

No deja de parecerme irónico que las corporaciones de la IA hayan adoptado por unanimidad el emoji de la magia para su producto. Siendo que la magia es lo opuesto a la ciencia, un engaño oscurantista, cuyo proceso está siempre ofuscado y que ofrece un resultado de nula utilidad. Salvo que sacar un 5 de Corazones de la cartera de un transeúnte sea crucial en el tratamiento del Parkinson o el desarrollo de motores de dos tiempos, y yo no esté al tanto. Un oscurantismo que sí que está presente en la comunicación de la IA con citas como "No entendemos del todo como funciona Chat GPT" de Sam Altman, una frase que bien podría pronunciar Nick Furia en Los Vengadores respecto a una aterfacto alienígena luminiscente.

Con cualquier prompt a un LLM con "razonamiento" (te meas) puedes ver que los LLMs piensan en lenguaje humano, pero a diferencia de tu cerebro o el terminal del que hablábamos antes, que suelen ser concisos, los LLMs narran su pensamiento como si fuera el de un personaje; piensa para la galería. Aunque la mayoría de providers obvian las partes básicas de ese proceso de razonamiento este luce así (prueba realizada con un modelo particularmente pequeño, QWEN 3.5 0.8b, ejecutado localmente con ollama, aka Robot Emilio):

Yo: Hola
Robot Emilio:Thinking...
Okay, the user greeted me in Spanish, saying "Hola". Let's respond warmly. First, check if they need help
with anything, like understanding what I am, asking a question, or just saying hello. Since they said
"Hola", a friendly greeting in Spanish should suffice. Maybe they want to know how I can assist them. Keep
it simple and engaging. No need for formalities. Let's respond in Spanish to match their language. Also,
mention that I'm here to help and ask if there's anything specific they'd like to discuss. Ensure the
response is natural and friendly. Maybe add emojis to make it more welcoming. Alright, that should work.
...done thinking.
¡Hola! ¿En qué te puedo ayudar hoy? 😊

El "Maybe add emojis to make it more welcoming" parece venir directo de un programa de Martha Stewart sobre arreglos de centro de mesa para Acción de Gracias..

Luego le pregunté "¿Por qué elegiste ese emoji?", el proceso de pensamiento es muchísimo más largo, en este punto quisiera enfatizar que es un modelo pequeño, pero eso nos ayuda a verle las costuras al tema, ya que QWEN 3.5 0.8b es una versión reducida del modelo de Alibaba. Si queréis ver la respuesta completa, que es muchísimo más larga, la he metido en un pastebin. Pero quisiera destacar el inicio:

Okay, let's see. The user is asking why I chose that emoji. Wait, the current context isn't helpful here.
Wait, they wrote "Por qué elegiste ese emoji?" which translates from Spanish. Hmm, they might be referring
to a specific emoji I picked

Casi tiene un punto cómico, quizás sea una percepción mía, pero esto me recuerda a una sitcom yankee en la que oímos con eco los pensamientos de un personaje cuyo movida es que su perfeccionismo y sobrepensamiento son graciosos por exagerados. La incorporación de onomatopeyas en el proceso de pensamiento de un LLM es ridículo, tanto que solo se explica porque el "thinking" o "reasoning" de un LLM simplemente centrifuga el prompt para ampliar el contexto y responder "mejor", por eso devuelve texto con el mismo proceso que cuando está respondiendo al usuario, haciendo uso de mecanismos narrativos. Podría interpretarse que está "narrando su pensamiento", pero no, ese es el pensamiento.

La industria de la IA parece convencida de que el problema es de escala. Que el LLM is the way to go. Aumentar los Terabytes de preciadísima memoria RAM, más núcleos, más vatios (literalmente, ahora se habla de vatios como medida de tamaño y potencia, una locura), más data, más texto, más imágenes... con la esperanza de minimizar las alucinaciones, de evitar que ignore las órdenes, que consuma menos tokens. Un todo al rojo que de primeras retrasará los lanzamientos de PS6 y la nueva XBOX, como ya lo ha hecho con la Steam Machine y que está poniendo en graves problemas a muchas empresas de ensamblajes de PCs que ven desplomarse la demanda con la subida de precios de 10-15x de la RAM y de 5-10x del almacenamiento.

Incluso comprando la mejor de las narrativas del otro delulu boy, Sam Altman; se ha entrenado a una máquina para sustituir a la humanidad, con todo el conocimiento e información de la humanidad, y hay que invertir todos los recursos disponibles para que eventualmente, y manteniendo el mismo proceso, deje de cometer errores, sin la certeza ni la proyección mínimamente sustentada en datos de que eso ocurrirá.

Pensar en conducción autónoma de vehículos muy parecidos a los actuales y por la mismas carreteras que los coches operados por eficientes humanos resulta muy ineficiente. Por núcleos urbanos hay demasiadas variables, personas caminando, obras... Y cuando te mueves a la gran distancia, rápido te das cuenta de si haces raíles exclusivos para esos coches autónomos en las grandes autopistas, estás a puntito de inventar LOS TRENES. Como Elon Musk y su horterísima e inoperante interpretación del metro en Las Vegas y otros lugares (sorprendentemente).

Los LLMs ofrecen un valor aparente altísimo que está costando muchísimo materializar. Los agentes de IA borran bases de datos, correos electrónicos y operan con unos niveles de inconsistencia tan altos que casi parece libre albedrío. No lo es, claro, como tampoco la tiene el móvil de tu padre cuando de acuerdo a sus palabras "no le deja hacer fotos" y lo que pasa es que no le queda espacio de almacenamiento, es que los modelos actuales requieren de ventanas de contexto gigantesco para tareas mínimamente complejas. Es posible que nos hayamos casado demasiado rápido con el modelo LLM como espina dorsal de la IA.

Me cuesta imaginar que una verdadera inteligencia artificial (o AGI, o singularidad) construida con silicio y electricidad vaya a operar con el lenguaje humano (que de por sí no es consistente ni geográfica ni temporalmente), y piense con signos de puntuación y oraciones compuestas. Por el cable de unos auriculares, que llevamos usando 100 años, no va la letra de Money For Nothing, ni siquiera va música, va electricidad. De la misma manera que el centrifugado de las lavadoras funciona sin incluir en su programa la estructura molecular del algodón, Python o las claves de la prosa de Ken Follet; solo da vueltas un rato para un lado, y luego para el otro.