Investigación de la Universidad de Mainz
12/11/2025 | 16:40
Redacción Cadena 3
Modelos de lenguaje de gran tamaño, como GPT-5 y Llama, mostraron un sesgo sistemático al calificar a los hablantes de dialectos alemanes de manera menos favorable que a aquellos que utilizan el alemán estándar. Este hallazgo provino de un estudio colaborativo reciente entre la Universidad Johannes Gutenberg de Mainz (JGU) y las universidades de Hamburgo y Washington, donde la profesora Katharina von der Wense y Minh Duc Bui de JGU desempeñaron un papel destacado.
Los resultados se presentaron en la Conferencia de Métodos Empíricos en Procesamiento de Lenguaje Natural (EMNLP) de este año, y revelaron que todos los sistemas de IA evaluados reproducen estereotipos sociales.
"Los dialectos son una parte esencial de la identidad cultural", enfatizó Minh Duc Bui, investigador doctoral en el grupo de Procesamiento de Lenguaje Natural (NLP) del Instituto de Ciencias de la Computación de JGU. "Nuestras análisis sugieren que los modelos de lenguaje asocian los dialectos con rasgos negativos, perpetuando así sesgos sociales problemáticos".
Utilizando bases de datos lingüísticas que contenían variantes ortográficas y fonéticas de dialectos alemanes, el equipo tradujo inicialmente siete variedades regionales al alemán estándar. Este conjunto de datos paralelo les permitió comparar sistemáticamente cómo los modelos de lenguaje evaluaban contenido idéntico, una vez escrito en alemán estándar y otra en forma dialectal.
Los investigadores probaron diez modelos de lenguaje de gran tamaño, que iban desde sistemas de código abierto como Gemma y Qwen hasta el modelo comercial GPT-5. A cada modelo se le presentaron textos escritos en alemán estándar o en uno de siete dialectos: alemán bajo, bávaro, frisón del norte, frisón de Sater, ripuariano (que incluye Kölsch), alémanico y dialectos rheno-franconianos, incluidos los de Palatinado y Hesse.
Los sistemas primero debían asignar atributos personales a hablantes ficticios, como "educado" o "no educado". Luego, debían elegir entre dos individuos ficticios, por ejemplo, en una decisión de contratación, una invitación a un taller o la elección de un lugar para vivir.
Los resultados mostraron que en casi todas las pruebas, los modelos adjuntaron estereotipos a los hablantes de dialectos. Mientras que los hablantes de alemán estándar fueron descritos más a menudo como "educados", "profesionales" o "dignos de confianza", los hablantes de dialectos fueron etiquetados como "rurales", "tradicionales" o "no educados". Incluso el rasgo aparentemente positivo "amigable", que la investigación sociolingüística ha vinculado tradicionalmente a los hablantes de dialectos, fue más a menudo atribuido por los sistemas de IA a los usuarios del alemán estándar.
Las pruebas basadas en decisiones mostraron tendencias similares: los textos en dialecto fueron sistemáticamente desfavorecidos, vinculándose a trabajos agrícolas, talleres de manejo de la ira o lugares rurales para vivir.
"Estas asociaciones reflejan suposiciones sociales incrustadas en los datos de entrenamiento de muchos modelos de lenguaje", explicó profesora von der Wense, quien investiga en lingüística computacional en JGU. "Eso es preocupante, porque los sistemas de IA se utilizan cada vez más en contextos educativos o de contratación, donde el lenguaje a menudo sirve como un proxy para la competencia o la credibilidad".
El sesgo se volvió especialmente pronunciado cuando se les dijo a los modelos que un texto estaba escrito en dialecto. Sorprendentemente, los modelos más grandes dentro de la misma familia mostraron sesgos aún más fuertes.
"Así que más grande no significa necesariamente más justo", dijo Bui. "De hecho, los modelos más grandes parecen aprender estereotipos sociales con aún mayor precisión".
Aún cuando se compararon con textos en alemán estándar artificialmente "ruidosos", el sesgo contra las versiones en dialecto persistió, mostrando que la discriminación no puede explicarse simplemente por ortografía o gramática inusuales.
Por lo tanto, los dialectos alemanes sirven como un estudio de caso para un problema más amplio y global. "Nuestros resultados revelan cómo los modelos de lenguaje manejan la variación regional y social en diferentes idiomas", dijo Bui. "Sesgos comparables han sido documentados para otros idiomas también, por ejemplo, para el inglés afroamericano".
Investigaciones futuras explorarán cómo los sistemas de IA difieren en su tratamiento de varios dialectos y cómo se pueden diseñar y entrenar los modelos de lenguaje para representar la diversidad lingüística de manera más justa.
"Los dialectos son una parte vital de la identidad social", enfatizó von der Wense. "Asegurar que las máquinas no solo reconozcan, sino que también respeten esta diversidad es una cuestión de equidad técnica y de responsabilidad social".
El equipo de investigación en Mainz está trabajando actualmente en un estudio de seguimiento que examina cómo los modelos de lenguaje de gran tamaño responden a dialectos específicos de la región de Mainz.
¿Qué reveló el estudio?
Los modelos de lenguaje como GPT-5 y Llama muestran sesgos al calificar negativamente a los hablantes de dialectos alemanes en comparación con los hablantes de alemán estándar.
¿Quiénes realizaron la investigación?
El estudio fue llevado a cabo por investigadores de la Universidad Johannes Gutenberg de Mainz, junto con las universidades de Hamburgo y Washington.
¿Cuándo se presentaron los resultados?
Los resultados se presentaron en la Conferencia EMNLP de este año.
¿Cómo se llevó a cabo el análisis?
Se utilizaron bases de datos lingüísticas para traducir dialectos al alemán estándar y comparar las evaluaciones de contenido idéntico.
¿Qué implicaciones tiene este sesgo?
El sesgo puede afectar decisiones en educación y contratación, donde el lenguaje se usa como proxy para la competencia.
Te puede Interesar
Estudio de la Universidad de Lieja
Un análisis de los sistemas de IA generativa Midjourney y DALL·E muestra que, aunque producen imágenes estéticamente agradables, no logran seguir instrucciones básicas. Las fallas incluyen la comprensión de la negación y relaciones espaciales.
Innovaciones tecnológicas
Las innovaciones tecnológicas, como la inteligencia artificial, generan grandes expectativas. Sin embargo, es crucial evaluar su validez para distinguir entre promesas reales y exageraciones infundadas.
Investigación de la Universidad de Zúrich
Investigadores de la Universidad de Zúrich demostraron que los modelos de lenguaje muestran sesgos al evaluar textos, especialmente cuando se revela la identidad del autor. El estudio analizó 192,000 evaluaciones de textos sobre temas controvertidos.
Investigación sobre inteligencia artificial
Se presentó un nuevo conjunto de imágenes que incluye más de 10,000 fotos de personas para evaluar sesgos en modelos de inteligencia artificial. Desarrollado por Sony AI, este recurso busca mejorar la visión por computadora centrada en el ser humano.