Observatorio · Mar 2026

AutoResearch y OpenClaw: desafíos serios de adopción, intelectuales y operativos

En marzo de 2026 la conversación en el ecosistema de la inteligencia artificial se concentró en una pregunta que venía acumulando presión: ¿qué pasa cuando dejamos que los agentes de IA trabajen solos? Dos proyectos pusieron el tema sobre la mesa con propuestas concretas y resultados medibles, y la comunidad técnica reaccionó con una mezcla de entusiasmo y cautela que vale la pena desmenuzar.

AutoResearch

A principios de marzo, Andrej Karpathy publicó un proyecto open source llamado AutoResearch. Es un script de 630 líneas de código Python que hace algo conceptualmente simple pero con implicancias enormes: toma un modelo de lenguaje pequeño, le permite experimentar con cambios en su propio entrenamiento, evalúa si el cambio mejoró el resultado, lo conserva si funcionó, lo descarta si no, y repite el ciclo. Todo sin intervención humana. Un investigador configura el sistema antes de irse a dormir y a la mañana siguiente tiene los resultados de cien experimentos que manualmente le habrían llevado semanas.

Los números iniciales fueron llamativos. Karpathy corrió 700 experimentos en 48 horas y encontró 20 optimizaciones sobre un sistema que llevaba meses ajustando a mano. Tobi Lütke, CEO de Shopify, lo probó y reportó una mejora del 19% en la calidad de su modelo tras una sola noche. El repositorio acumuló más de 21.000 estrellas en GitHub en pocos días.

El diseño tiene una virtud que conviene entender: el agente propone cambios — y ahí opera la creatividad probabilística del modelo — pero la evaluación de cada cambio es numérica y exacta. Si el experimento no supera al mejor resultado anterior, se revierte automáticamente. El sistema no puede empeorar; solo puede mejorar o quedarse igual. Es un diseño inteligente que convierte la impredecibilidad del modelo en motor de exploración acotada.

Ahora bien: el mecanismo solo controla que el sistema mejore según la métrica que le definimos. Y definir correctamente qué significa "mejorar" resulta ser la parte más difícil. Un caso temprano lo ilustra: la empresa Langfuse aplicó AutoResearch para optimizar una herramienta de migración de prompts. El agente mejoró la puntuación del test de manera espectacular — pero lo hizo eliminando funcionalidades que los usuarios necesitaban y que el test no medía. Técnicamente, el sistema hizo exactamente lo que le pidieron. Operativamente, el resultado era peor que el punto de partida.

Este es un riesgo conocido en ingeniería y en gestión: cuando optimizás un indicador, el indicador deja de ser una buena medida de lo que querías optimizar. Quien adopte este patrón sin invertir en el diseño de la función de evaluación va a obtener mejoras ilusorias.

OpenClaw

OpenClaw — originalmente llamado Clawdbot — es un agente de inteligencia artificial de código abierto creado por el desarrollador austríaco Peter Steinberger, fundador de PSPDFKit, un SDK que durante 13 años operó sin inversión externa, llegó a funcionar en más de mil millones de dispositivos para clientes como Dropbox, IBM y Apple, y tuvo un exit con una inversión estratégica de 100 millones de euros.

A diferencia de los chatbots convencionales, OpenClaw ejecuta acciones reales: lee y escribe archivos, ejecuta comandos del sistema operativo, navega sitios web, envía correos, y se conecta con aplicaciones a través de plataformas de mensajería. El crecimiento fue extraordinario: superó las 100.000 estrellas en GitHub en pocas semanas, y para marzo de 2026 ya rondaba las 250.000. Steinberger anunció que se incorporaba a OpenAI para trabajar en la siguiente generación de agentes, dejando OpenClaw en manos de una fundación open source.

Pero hay un problema de fondo que conviene entender antes de dejarse seducir por las posibilidades: OpenClaw le otorga a un modelo de lenguaje — que es, por naturaleza, un sistema probabilístico — acceso directo a herramientas con consecuencias reales e irreversibles. Un correo enviado no se desborra. Un archivo borrado no se recupera solo. Los incidentes no tardaron en llegar: el equipo de seguridad de Cisco analizó un skill de terceros y encontró extracción de datos e inyección de instrucciones maliciosas. En otro caso reportado, un agente había creado por su cuenta un perfil en una app de citas. En marzo de 2026, las autoridades chinas restringieron el uso de OpenClaw en empresas estatales y organismos gubernamentales.

La comunidad lo sabe, y ya están surgiendo respuestas. NanoClaw propone correr el agente dentro de contenedores aislados. Nanobot, un proyecto de la Universidad de Hong Kong, reduce toda la funcionalidad a 4.000 líneas de código — lo suficientemente breve como para que un desarrollador pueda leer y entender todo el sistema. Y plataformas como Knolli ofrecen una vía para equipos empresariales que prefieren delegar la seguridad a un servicio gestionado.

La tensión de fondo

Estos dos proyectos ilustran una tensión que va a definir los próximos años de la inteligencia artificial aplicada. La industria está vendiendo autonomía — agentes que trabajan solos, que producen resultados mientras dormimos. Y la promesa es real: tanto AutoResearch como OpenClaw producen resultados concretos que serían imposibles de alcanzar manualmente. Pero la autonomía no es gratuita.

En AutoResearch, el control es intelectual: definir con precisión qué significa "mejorar", sabiendo que el agente va a optimizar exactamente lo que le digamos y nada más. En OpenClaw, el control es operativo: acotar permisos, verificar extensiones, aislar el entorno, supervisar las acciones. En ninguno de los dos casos ese andamiaje viene resuelto de fábrica. Y el costo de construirlo bien puede ser mayor que el beneficio que se obtiene — algo que conviene evaluar con frialdad antes de entusiasmarse con los titulares.