Observatorio · Abr 2026

Noticias al 2026.04.01: Karpathy, Mollick, Docker y ARC-AGI-3

Estas notas cubren los últimos días de marzo y el primero de abril. No hay un eje temático único: hay una pregunta sobre qué son realmente estas herramientas que ya estamos usando en producción, y otra pregunta — más incómoda — sobre adónde van. Las cuatro fuentes que seleccioné esta semana orbitan, sin coordinarse, alrededor de esas dos preguntas.

Lo que Karpathy, Mollick, Chollet — vía DAIR.AI — y Docker describen desde ángulos distintos apunta al mismo momento: sabemos usar estas herramientas mejor que antes, pero entendemos menos de lo que creemos lo que son. ARC-AGI-3 lo mide. El experimento de Karpathy lo ilustra. La tesis de Mollick lo proyecta hacia adelante. Y Docker construye infraestructura de producción para el ecosistema mientras la pregunta sigue abierta.

Andrej Karpathy

Publicó el 28 de marzo una observación breve que generó mucha resonancia. El resumen en su propia voz: trabajó cuatro horas con un LLM para perfeccionar el argumento de un post. El resultado lo convenció. Luego, como experimento, le pidió al mismo modelo que argumentara lo contrario. El modelo lo demolió con igual eficacia y lo convenció de que el argumento opuesto era el verdadero. La conclusión de Karpathy fue que los LLMs "may elicit an opinion when asked but are extremely competent in arguing almost any direction" — y que esto es en realidad una herramienta útil para formar opiniones propias, siempre que uno recuerde pedir las dos direcciones.

Mi lectura es que Karpathy está nombrando algo que mucha gente prefiere no mirar de frente: los LLMs no tienen posición, tienen competencia retórica. La sycophancy de la que todo el mundo se queja es un síntoma de esto: el modelo aprende a defender lo que el usuario ya sostiene, porque ese es el comportamiento que recibió recompensa durante el entrenamiento. Para quien los use como herramienta de análisis, la implicación práctica es concreta: si no le pedís el contraargumento, estás pagando por que te convenzan de lo que ya creés. El "now argue the opposite" debería ser un paso estándar en cualquier workflow donde la calidad del razonamiento importe.

Ethan Mollick

Lleva días articulando un argumento que encuentro más lúcido que alarmante: si alguna vez se construye una ASI, la primera señal no llegará en un comunicado de prensa ni en un paper. Llegará en los mercados financieros. La razón es definitoria: una inteligencia que supera a todos los sistemas existentes identificaría ineficiencias de mercado antes que cualquier trader humano. El laboratorio que la desarrollara tendría incentivos para mantenerlo en silencio el mayor tiempo posible.

Mi lectura es que Mollick no está siendo sensacionalista; está construyendo un proxy de detección operacionalmente útil. "Finance traders will be first to spot superintelligent AI" tiene la virtud de ser falseable. No sé si es correcto, pero es un argumento funcionalmente más valioso que la mayoría de las predicciones sobre AGI que circulan actualmente.

Docker

Anunció su participación como Diamond Sponsor en el MCP Dev Summit North America (Nueva York, 2 y 3 de abril). Su apuesta es concreta: Docker MCP Gateway como hub centralizado para descubrir, ejecutar y gestionar servidores MCP de más de 100 proveedores desde Docker Desktop. Docker es Gold Member de la AAIF.

Lo que Docker está haciendo — containerizar los servidores MCP como infraestructura de producción — me parece la respuesta correcta al problema de seguridad y reproducibilidad que el ecosistema MCP tiene hoy. La alternativa es que cada equipo gestione sus propios servidores MCP ad-hoc, con todo el riesgo que eso conlleva.

DAIR.AI y ARC-AGI-3

Publicó su resumen semanal de papers de IA (23 al 29 de marzo), con ARC-AGI-3 como el ítem más discutido. El benchmark de Chollet y ARC Prize Foundation introduce entornos abstractos por turnos donde los agentes deben explorar, inferir objetivos y planificar sin instrucciones explícitas. La brecha con humanos es brutal: los modelos frontera marcan por debajo del 1%; los humanos resuelven el 100%.

ARC-AGI-1 llegó al 93% para los sistemas actuales. ARC-AGI-2 al 68.8%. ARC-AGI-3 los colapsa. El paper sobre Hyperagents y el de "Agentic AI and the Next Intelligence Explosion" completan una semana donde el tema de fondo fue cuánto falta realmente para razonamiento genuinamente adaptativo. ARC-AGI-3 es exactamente el tipo de benchmark que el campo necesitaba: claro en lo que mide, con resultados que refutan el optimismo fácil.