Estudio de la Universidad de Lieja
12/11/2025 | 15:40
Redacción Cadena 3
¿Podemos confiar realmente en la inteligencia artificial para ilustrar nuestras ideas? Un equipo de científicos examinó las capacidades de Midjourney y DALL·E, dos programas de inteligencia artificial generativa (GAI), para producir imágenes a partir de oraciones simples. El veredicto es mixto: entre logros estéticos y errores de principiante, las máquinas aún tienen un largo camino por recorrer.
Desde la aparición de GAIs como Midjourney y DALL·E, crear imágenes a partir de oraciones simples se ha convertido en una realidad fascinante y, a veces, perturbadora. Sin embargo, detrás de esta hazaña técnica se encuentra una pregunta esencial: ¿cómo traducen estas máquinas las palabras en visuales? Cuatro investigadores de la Universidad de Lieja, la Universidad de Lorena y EHESS buscaron entender esto mediante un estudio interdisciplinario que combina semiótica, informática e historia del arte.
El artículo fue publicado en la revista Semiotic Review.
"Nuestro enfoque se basa en una serie de pruebas rigurosas", explicó Maria Giulia Dondero, semiótica de la Universidad de Lieja. "Presentamos solicitudes muy específicas a estos dos sistemas de IA y analizamos las imágenes producidas según criterios de las humanidades, como la disposición de formas, colores, miradas, el dinamismo específico de la imagen estática, el ritmo de su despliegue, etc."
¿El resultado? Los sistemas de IA son capaces de generar imágenes que son supuestamente estéticas, pero a menudo luchan por seguir incluso las instrucciones más simples.
El estudio revela dificultades sorprendentes, como el hecho de que los GAIs no comprenden bien la negación ("un perro sin cola" muestra un perro con cola o un marco que la oculta), relaciones espaciales complejas, la correcta posición de los elementos o la representación de miradas y relaciones de distancia consistentes ("dos mujeres detrás de una puerta"). A veces, traducen acciones simples como "pelear" en escenas de baile y tienen problemas para representar secuencias temporales como los inicios y finales de gestos ("empezando a comer" o "habiendo terminado de comer").
"Estas GAIs nos permiten reflexionar sobre nuestra propia forma de ver y representar el mundo", dice Enzo D'Armenio, exinvestigador en ULiège, profesor junior en la Universidad de Lorena y autor principal del artículo. "Reproducen estereotipos visuales de sus bases de datos, a menudo construidas a partir de imágenes occidentales, y revelan las limitaciones de la traducción entre el lenguaje verbal y visual."
Los resultados obtenidos por el equipo de investigación fueron validados mediante repetición, hasta cincuenta generaciones por solicitud, para establecer su solidez estadística. Los modelos también tienen firmas estéticas distintas. Midjourney favorece representaciones "estetizadas", con artefactos o texturas que embellecen la imagen, a veces a expensas del respeto estricto a las instrucciones, mientras que DALL·E, que es más "neutral" en términos de textura, ofrece un mayor control compositivo pero puede variar más en términos de orientación o número de objetos.
La serie de 50 pruebas sobre la solicitud "tres líneas verticales blancas sobre un fondo negro" ilustra estas tendencias: consistencia relativa pero artefactos frecuentes para Midjourney; variabilidad en el número y orientación de líneas para DALL·E.
El estudio señala que estas AIs son estadísticas. "Los GAIs producen el resultado más plausible basado en sus bases de datos de entrenamiento y los ajustes (a veces editoriales) de sus diseñadores", explica Adrien Deliège, matemático de ULiège. "Estas elecciones podrían estandarizar la mirada y transmitir o reorientar estereotipos."
Un ejemplo revelador: dada la solicitud "un CEO dando un discurso", DALL·E puede generar mayormente mujeres, mientras que otros modelos producen casi exclusivamente hombres blancos de mediana edad, una señal de que la impronta de los diseñadores y conjuntos de datos influye en la "visión" del mundo de la máquina.
Los investigadores enfatizan que evaluar estas tecnologías requiere más que medir su efectividad estadística; también es necesario utilizar herramientas de las humanidades para entender su funcionamiento cultural y simbólico.
"Las herramientas de IA no son simplemente herramientas automáticas", concluye Enzo D'Armenio. "Traducen nuestras palabras según su propia lógica, influenciada por sus bases de datos y algoritmos. Las humanidades tienen un papel esencial que desempeñar en su comprensión y evaluación."
Y aunque estas herramientas de IA pueden ayudarnos a ilustrar nuestras ideas, aún tienen un largo camino por recorrer antes de poder traducirlas perfectamente.
¿Qué estudió el equipo de investigadores?
El equipo examinó las capacidades de los sistemas de IA generativa Midjourney y DALL·E para producir imágenes a partir de oraciones simples.
¿Cuáles fueron los hallazgos principales?
Los sistemas pueden generar imágenes estéticamente agradables, pero a menudo no siguen instrucciones básicas, especialmente en negaciones y relaciones espaciales.
¿Qué métodos utilizaron los investigadores?
Realizaron pruebas rigurosas y validaron los resultados mediante repetición de hasta cincuenta generaciones por solicitud.
¿Qué limitaciones mostraron los sistemas de IA?
Los sistemas no comprenden bien la negación, tienen problemas con relaciones espaciales complejas y a menudo reproducen estereotipos visuales.
¿Cuál es la conclusión del estudio?
Las herramientas de IA traducen palabras según su lógica, influenciada por sus bases de datos, y requieren un análisis desde las humanidades para su evaluación.
Te puede Interesar
Innovaciones tecnológicas
Las innovaciones tecnológicas, como la inteligencia artificial, generan grandes expectativas. Sin embargo, es crucial evaluar su validez para distinguir entre promesas reales y exageraciones infundadas.
Investigación del MIT
Investigadores del MIT desarrollaron un enfoque que permite a los LLMs actualizarse y aprender de manera permanente, mejorando su rendimiento en tareas complejas.
Investigación de la Universidad Estatal de Michigan
Un estudio de la Universidad Estatal de Michigan analizó la capacidad de las personas de IA para detectar mentiras, revelando que son más precisas al identificar engaños que verdades, pero aún no alcanzan la precisión humana.