Investigación de UNIST
07/11/2025 | 05:58
Redacción Cadena 3
Cuando los usuarios solicitan a ChatGPT que genere una imagen en el estilo de Ghibli, la imagen real es creada por DALL-E, una herramienta impulsada por modelos de difusión. Aunque estos modelos producen imágenes impresionantes, como la transformación de fotos en estilos artísticos o la creación de personajes personalizados, también enfrentan ciertas limitaciones. Estas incluyen errores ocasionales, como manos con tres dedos o rostros distorsionados, y desafíos para funcionar en dispositivos con recursos computacionales limitados, como los teléfonos inteligentes, debido a su gran cantidad de parámetros.
Un equipo de investigación, liderado por los profesores Jaejun Yoo y Sung Whan Yoon de la Escuela de Graduados en Inteligencia Artificial de UNIST, propuso un nuevo principio de diseño para la inteligencia artificial generativa que aborda estos problemas. A través de análisis teóricos y experimentos extensivos, demostraron que entrenar modelos de difusión para alcanzar "mínimos planos"—un tipo específico de punto óptimo en la superficie de pérdida—puede mejorar simultáneamente tanto la robustez como la capacidad de generalización de estos modelos.
Su estudio fue presentado en la Conferencia Internacional sobre Visión por Computadora (ICCV 2025), y los hallazgos están publicados en el servidor de preprints arXiv.
Los modelos de difusión son ampliamente utilizados en aplicaciones populares de inteligencia artificial, incluyendo herramientas como DALL-E y Stable Diffusion, que permiten realizar tareas que van desde la transferencia de estilo y la creación de caricaturas hasta la representación de escenas realistas. Sin embargo, desplegar estos modelos a menudo conduce a desafíos, como la acumulación de errores durante ciclos de generación cortos, degradación del rendimiento tras técnicas de compresión de modelos como la cuantización, y vulnerabilidad a ataques adversariales—pequeñas perturbaciones maliciosas en la entrada diseñadas para engañar a los modelos.
El equipo de investigación identificó que estos problemas surgen de limitaciones fundamentales en la capacidad de los modelos para generalizar, es decir, su capacidad para funcionar de manera confiable con datos nuevos o en entornos desconocidos.
Para abordar esto, el equipo propuso guiar el proceso de entrenamiento hacia "mínimos planos"—regiones en el paisaje de pérdida del modelo caracterizadas por superficies amplias y suaves. Tales mínimos ayudan al modelo a mantener un rendimiento estable y confiable a pesar de pequeñas perturbaciones o ruidos. Por el contrario, los "mínimos agudos"—valles estrechos y empinados—tienden a causar un deterioro del rendimiento cuando se enfrentan a variaciones o ataques.
Entre los diversos algoritmos diseñados para encontrar mínimos planos, el equipo identificó la Minimización Consciente de Agudeza (SAM) como la más efectiva. Los modelos entrenados con SAM demostraron una reducción en la acumulación de errores durante tareas de generación rápidas, mantuvieron salidas de mayor calidad después de la compresión, y exhibieron un aumento de siete veces en la resistencia a ataques adversariales, mejorando significativamente su robustez.
Mientras que investigaciones anteriores abordaron problemas como la acumulación de errores, errores de cuantización y vulnerabilidades adversariales por separado, este estudio muestra que centrarse en los mínimos planos ofrece una solución unificada y fundamental a todos estos desafíos.
Los investigadores destacan que sus hallazgos van más allá de simplemente mejorar la calidad de imagen. Proporcionan un marco fundamental para diseñar sistemas de inteligencia artificial generativa confiables y versátiles que pueden aplicarse de manera efectiva en diversas industrias y escenarios del mundo real. Además, este enfoque podría allanar el camino para entrenar modelos a gran escala como ChatGPT de manera más eficiente, incluso con datos limitados.
¿Qué se propuso?
Un nuevo principio de diseño para modelos de difusión que mejora su robustez y capacidad de generalización.
¿Quiénes lideraron la investigación?
Los profesores Jaejun Yoo y Sung Whan Yoon de la Escuela de Graduados en Inteligencia Artificial de UNIST.
¿Cuándo se presentó el estudio?
En la Conferencia Internacional sobre Visión por Computadora (ICCV 2025).
¿Cómo se mejora la robustez de los modelos?
Entrenando modelos para alcanzar "mínimos planos" en la superficie de pérdida.
¿Por qué es importante este enfoque?
Ofrece una solución unificada a problemas como la acumulación de errores y vulnerabilidades adversariales.
Te puede Interesar
Innovación tecnológica en seguridad marítima
Un innovador sistema de extinción de incendios, desarrollado en Corea del Sur, detecta y apaga incendios de petróleo en barcos de manera autónoma, logrando una precisión del 98% incluso en condiciones adversas.
Investigación de la Universidad de Chicago
Investigadores de la Universidad de Chicago desarrollaron un sistema de laboratorio autónomo que utiliza inteligencia artificial y robótica para crear películas metálicas delgadas, optimizando el proceso sin intervención humana.
Investigadores de UNIST aplican el arte en tecnología
Una nueva inteligencia artificial ayuda a vehículos autónomos a percibir el entorno. Utilizando el concepto de punto de fuga, mejora la comprensión espacial y la detección de objetos distantes.
Investigación en baterías de estado sólido
Un equipo de científicos de UNIST y otras universidades descubre mecanismos de degradación en baterías de estado sólido. Su estudio promete avances en vehículos eléctricos y almacenamiento energético en gran escala.