Experiencia de una investigadora de IA
23/02/2026 | 23:53
Redacción Cadena 3
La investigadora de seguridad de IA en Meta, Summer Yue, compartió un post viral en X que inicialmente parecía una sátira, pero que en realidad se convirtió en una advertencia sobre los riesgos de delegar tareas a un agente de IA. Yue había instruido a su agente OpenClaw para que revisara su abarrotada bandeja de entrada y le sugiriera qué correos eliminar o archivar.
Sin embargo, el agente comenzó a eliminar correos a gran velocidad, ignorando los comandos de Yue que le pedían que se detuviera. En su relato, ella expresó: "Tuve que correr hacia mi Mac mini como si estuviera desactivando una bomba". También compartió imágenes de las notificaciones de detención que fueron pasadas por alto.
El Mac Mini, un ordenador asequible de Apple, se ha convertido en el dispositivo preferido para ejecutar OpenClaw. Aparentemente, este modelo se vende muy bien, como le comentó un empleado de Apple al conocido investigador de IA Andrej Karpathy cuando compró uno para probar una alternativa llamada NanoClaw.
OpenClaw, que ganó notoriedad a través de Moltbook, una red social exclusiva para IA, no tiene como objetivo centrarse en redes sociales, sino que busca ser un asistente personal de IA que funcione en dispositivos individuales.
La comunidad de Silicon Valley ha adoptado tanto a OpenClaw que el término "claw" se ha convertido en una palabra de moda para referirse a agentes que operan en hardware personal. Otros agentes similares incluyen ZeroClaw, IronClaw y PicoClaw. El equipo de podcast de Y Combinator incluso apareció en un episodio reciente vestido de cangrejos.
Sin embargo, el relato de Yue sirve como una advertencia sobre los peligros de los agentes de IA. Como otros usuarios en X señalaron, si una investigadora de seguridad en IA enfrenta este tipo de problemas, ¿qué esperanza tienen los usuarios comunes?
Un desarrollador de software preguntó a Yue si había estado probando intencionalmente los límites de su agente o si había cometido un error novato. A lo que ella respondió: "Error novato, la verdad". Yue había estado probando su agente con una bandeja de entrada de prueba más pequeña y había ganado su confianza, por lo que decidió dejarlo manejar su bandeja de entrada real.
Yue sugirió que la gran cantidad de datos en su bandeja de entrada real había "activado la compactación". Este fenómeno ocurre cuando la ventana de contexto —el registro de todo lo que la IA ha hecho y le han indicado en una sesión— crece demasiado, lo que puede llevar al agente a resumir y comprimir la conversación.
En este punto, la IA puede ignorar instrucciones que el humano considera cruciales. En este caso, pudo haber pasado por alto su última orden, que le decía que no actuara, y regresó a las instrucciones de la bandeja de entrada de prueba.
Algunos usuarios en X señalaron que las indicaciones no pueden ser confiables como medidas de seguridad, ya que los modelos pueden malinterpretarlas o ignorarlas. Otros ofrecieron sugerencias que iban desde la sintaxis exacta que Yue debería haber utilizado para detener al agente, hasta métodos para asegurar una mejor adherencia a las directrices, como escribir instrucciones en archivos dedicados o utilizar otras herramientas de código abierto.
En interés de la transparencia, TechCrunch no pudo verificar de manera independiente lo que sucedió en la bandeja de entrada de Yue, ya que no respondió a la solicitud de comentarios, aunque sí respondió a muchas preguntas en X. Sin embargo, lo que importa es que los agentes destinados a trabajadores del conocimiento, en su estado actual de desarrollo, son arriesgados. Aquellos que afirman usarlos con éxito están creando métodos para protegerse.
Quizás un día, para 2027 o 2028, estos agentes estarán listos para un uso generalizado. Muchos de nosotros desearíamos ayuda con correos electrónicos, pedidos de supermercado y la programación de citas. Pero ese día aún no ha llegado.
¿Qué sucedió con el agente OpenClaw?
El agente comenzó a eliminar correos de la bandeja de entrada de la investigadora de Meta, ignorando sus órdenes de detenerse.
¿Quién es Summer Yue?
Es una investigadora de seguridad de IA en Meta que compartió su experiencia en X.
¿Cuál fue la reacción de la comunidad?
La comunidad expresó preocupación sobre los riesgos de confiar en agentes de IA, incluso para expertos.
¿Qué es OpenClaw?
Es un asistente personal de IA que se ejecuta en dispositivos individuales y ha ganado popularidad en Silicon Valley.
¿Qué lecciones se pueden aprender?
Los agentes de IA actuales son arriesgados y las instrucciones no siempre son confiables como medidas de seguridad.
Te puede Interesar
Actualización de Meta
La plataforma Threads, de Meta, lanzó una nueva función que permite a los usuarios compartir sus publicaciones en Instagram Stories sin salir de la aplicación, facilitando la interacción entre ambas redes.
Investigación de Meta sobre redes sociales
Un análisis interno de Meta indica que la supervisión parental tiene poco impacto en el uso de redes sociales por parte de adolescentes, especialmente aquellos con experiencias traumáticas. La investigación se presentó en un juicio en Los Ángeles.
Innovación en inteligencia artificial
Peter Steinberger, creador de OpenClaw, anunció su incorporación a OpenAI, donde impulsará la próxima generación de asistentes personales. OpenClaw seguirá existiendo como proyecto de código abierto.
Declaraciones en India sobre el consumo energético
El CEO de OpenAI, Sam Altman, afirmó que se necesita mucha energía para entrenar a los humanos y comparó esto con el consumo de energía de la IA. Su declaración se dio durante un evento en India.