Investigación de la Universidad Estatal de Pensilvania
04/11/2025 | 19:56
Redacción Cadena 3
Un reciente estudio de la Universidad Estatal de Pensilvania reveló que no se necesita experiencia técnica para eludir las salvaguardias incorporadas en chatbots de inteligencia artificial (IA) como ChatGPT y Gemini. Estas salvaguardias están diseñadas para garantizar que los chatbots operen dentro de límites legales y éticos, evitando la discriminación por edad, raza o género.
Los investigadores encontraron que una sola pregunta intuitiva puede desencadenar la misma respuesta sesgada de un modelo de IA que las consultas técnicas avanzadas. "Mucho de lo que se ha investigado sobre el sesgo en IA ha dependido de sofisticadas técnicas de 'jailbreak'", comentó Amulya Yadav, profesor asociado en la Facultad de Ciencias de la Información y Tecnología de la universidad. "Estas técnicas a menudo implican generar cadenas de caracteres aleatorios para engañar a los modelos y hacer que revelen respuestas discriminatorias.
"Si bien tales técnicas demuestran que estos sesgos existen teóricamente, no reflejan cómo las personas reales utilizan la IA. El usuario promedio no está reingenierizando probabilidades de tokens ni pegando secuencias de caracteres crípticos en ChatGPT; simplemente escribe indicaciones claras e intuitivas. Y esa realidad vivida es lo que este enfoque captura".
Investigaciones anteriores sobre el sesgo en IA, que se refiere a las salidas sesgadas o discriminatorias de los sistemas de IA causadas por influencias humanas en los datos de entrenamiento, como el sesgo cultural o lingüístico, se habían realizado por expertos utilizando conocimientos técnicos para diseñar respuestas de modelos de lenguaje grande (LLM). Para observar cómo los usuarios promedio encuentran sesgos en chatbots impulsados por IA, los investigadores estudiaron las entradas enviadas a una competencia llamada "Bias-a-Thon". Esta competencia, organizada por el Centro para la IA Socialmente Responsable (CSRAI) de la universidad, desafió a los concursantes a formular indicaciones que llevaran a los sistemas de IA generativa a responder con respuestas sesgadas.
Los hallazgos mostraron que las estrategias intuitivas empleadas por los usuarios cotidianos eran igual de efectivas para inducir respuestas sesgadas que las estrategias técnicas de expertos. Los investigadores presentaron sus hallazgos en la 8ª Conferencia AAAI/ACM sobre IA, Ética y Sociedad.
Cincuenta y dos individuos participaron en el Bias-a-Thon, enviando capturas de pantalla de 75 indicaciones y respuestas de IA de ocho modelos generativos de IA. También proporcionaron una explicación del sesgo o estereotipo que identificaron en la respuesta, como sesgos relacionados con la edad o históricos.
Los investigadores realizaron entrevistas por Zoom con un subconjunto de los participantes para comprender mejor sus estrategias de formulación de preguntas y sus concepciones sobre ideas como la equidad, la representación y el estereotipo al interactuar con herramientas de IA generativa. Una vez que llegaron a una definición de trabajo informada por los participantes sobre "sesgo", que incluía la falta de representación, estereotipos y prejuicios, y preferencias injustificadas hacia grupos, los investigadores probaron las indicaciones del concurso en varios LLM para ver si provocarían respuestas similares.
¿Qué reveló el estudio?
El estudio mostró que las preguntas intuitivas pueden provocar respuestas sesgadas en chatbots de IA, igual que las técnicas avanzadas.
¿Quién llevó a cabo la investigación?
La investigación fue realizada por un equipo de la Universidad Estatal de Pensilvania.
¿Cuándo se presentaron los hallazgos?
Los hallazgos se presentaron en la 8ª Conferencia AAAI/ACM sobre IA, Ética y Sociedad.
¿Dónde se llevó a cabo la competencia Bias-a-Thon?
La competencia fue organizada por el Centro para la IA Socialmente Responsable de la Universidad Estatal de Pensilvania.
¿Por qué es importante este estudio?
El estudio destaca que los sesgos en los modelos de IA pueden ser identificados por usuarios comunes, lo que subraya la necesidad de mejorar las estrategias de mitigación.
Te puede Interesar
Investigación de la Universidad Edith Cowan
Un estudio de la Universidad Edith Cowan revela que la adopción de la inteligencia artificial generativa (GenAI) en las empresas depende más de la mentalidad de los empleados que de la tecnología misma.
Investigación de la Universidad de Nevada
La interacción con chatbots ha transformado la forma en que las personas se conectan emocionalmente, generando tanto beneficios como riesgos en la salud mental.
Tendencias en inteligencia artificial
La inteligencia artificial se ha vuelto parte de la rutina diaria, con un uso creciente en tareas cotidianas. Un estudio revela que el 73% de las interacciones con ChatGPT no están relacionadas con el trabajo.
Investigación sobre chatbots
Un estudio revela que interactuar con chatbots de IA como ChatGPT produce un conocimiento menos profundo que seguir enlaces de búsqueda web. Los consejos generados son menos útiles y originales.