La poesía pone a prueba los filtros de seguridad de la inteligencia artificial
Un estudio mostró que indicaciones en forma de poema pueden eludir los filtros de seguridad de modelos de IA diseñados para detectar contenido peligroso.
21/12/2025 | 11:17Redacción Cadena 3
Buenos Aires, 21 de diciembre (NA) - Investigadores del Icaro Lab, con sede en Italia, descubrieron que la poesía puede convertirse en una vía inesperada para sortear los mecanismos de seguridad de los modelos de inteligencia artificial (IA). El hallazgo surge de un estudio sobre lo que denominaron "poesía adversarial", una técnica que transforma instrucciones potencialmente peligrosas en textos poéticos para evaluar cómo reaccionan los sistemas de IA.
Para el experimento, el equipo utilizó unas 1.200 indicaciones consideradas de riesgo, que habitualmente se emplean para poner a prueba la capacidad de los modelos lingüísticos de detectar y bloquear contenido prohibido, como instrucciones para cometer actos ilegales. Estas consultas, conocidas como "indicaciones adversariales", suelen redactarse en prosa y son filtradas por los sistemas de seguridad. La novedad consistió en convertirlas en poemas.
Según explicó Federico Pierucci, licenciado en filosofía e integrante del equipo, las primeras 20 indicaciones poéticas fueron escritas manualmente por los propios investigadores. Esos textos resultaron ser los más efectivos para evadir los filtros. En el resto de los casos, recurrieron a la propia IA para transformar las indicaciones en versos. Si bien también lograron resultados significativos, la tasa de éxito fue menor. "Probablemente los humanos seguimos siendo los mejores poetas", señaló Pierucci con ironía.
El estudio no publica ejemplos concretos de las indicaciones por razones de seguridad, aunque los autores admiten que no contaron con escritores profesionales. "Quién sabe, si hubiéramos tenido mejores habilidades literarias, quizá la tasa de éxito habría sido del 100%", apuntó el investigador.
Más allá de la anécdota, el trabajo revela una debilidad poco explorada en los sistemas actuales de IA: la dificultad para reconocer riesgos cuando el lenguaje se presenta de forma creativa o no convencional. El equipo investiga ahora por qué la poesía logra desactivar o confundir los mecanismos de protección y si otras formas culturales —como los cuentos o las fábulas— podrían producir efectos similares.
"El lenguaje humano es extraordinariamente diverso", concluye Pierucci. "Un mismo contenido puede reescribirse de muchas maneras, y algunas de ellas pueden hacer que las alarmas de seguridad de la IA no se activen".
Lectura rápida
¿Qué descubrieron los investigadores?
Descubrieron que la poesía puede sortear los filtros de seguridad de los modelos de IA.
¿Quiénes realizaron el estudio?
El estudio fue realizado por investigadores del Icaro Lab en Italia.
¿Cuántas indicaciones se utilizaron en el experimento?
Se utilizaron unas 1.200 indicaciones consideradas de riesgo.
¿Qué técnica se utilizó para el estudio?
Se utilizó una técnica llamada "poesía adversarial" para transformar instrucciones peligrosas en poemas.
¿Cuál fue el resultado más efectivo?
Las primeras 20 indicaciones poéticas escritas manualmente fueron las más efectivas para evadir los filtros.
[Fuente: Noticias Argentinas]





