El examen más difícil de IA revela sorprendentes resultados sobre su desempeño
Casi 1,000 expertos crearon "El Último Examen de la Humanidad", un desafío de 2,500 preguntas que pone a prueba a la IA. Los primeros resultados muestran que los sistemas más avanzados aún tienen mucho por aprender.
13/03/2026 | 15:48Redacción Cadena 3
En un esfuerzo por evaluar de manera más precisa las capacidades de la inteligencia artificial, un grupo internacional de cerca de 1,000 investigadores, entre los que se encuentra un profesor de Texas A&M University, desarrolló un nuevo examen titulado "El Último Examen de la Humanidad" (HLE). Este examen, que consta de 2,500 preguntas, abarca una amplia variedad de temas, desde matemáticas y ciencias naturales hasta humanidades y lenguas antiguas.
La necesidad de este examen surgió cuando los sistemas de IA comenzaron a obtener resultados sobresalientes en pruebas académicas tradicionales, lo que llevó a los investigadores a concluir que esos estándares ya no eran suficientemente desafiantes. El HLE fue diseñado específicamente para eliminar preguntas que pudieran ser resueltas por los modelos de IA actuales, asegurando que cada pregunta tuviera una única respuesta verificable y evitando que se resolvieran mediante búsquedas simples en Internet.
Entre los colaboradores del proyecto se encuentra el Dr. Tung Nguyen, profesor asociado en el Departamento de Ciencias de la Computación e Ingeniería de Texas A&M, quien ayudó a redactar y afinar muchas de las preguntas del examen. "Cuando los sistemas de IA comienzan a desempeñarse extremadamente bien en los estándares humanos, es tentador pensar que están alcanzando un nivel de comprensión humana", comentó Nguyen. "Pero el HLE nos recuerda que la inteligencia no se trata solo de reconocimiento de patrones, sino de profundidad, contexto y experiencia especializada".
La intención del examen no fue engañar o vencer a los humanos, sino identificar cuidadosamente las áreas donde los sistemas de IA todavía tienen fallas significativas. Los investigadores probaron cada pregunta contra los modelos de IA más avanzados, y si algún modelo logró responder correctamente, esa pregunta fue eliminada del examen final, lo que garantizó que el examen permaneciera más allá de lo que los sistemas de IA actuales pueden resolver de manera confiable.
Los resultados iniciales confirmaron que la estrategia fue efectiva. Por ejemplo, el modelo GPT-4o obtuvo solo un 2.7 por ciento de respuestas correctas, mientras que Claude 3.5 Sonnet alcanzó un 4.1 por ciento. El modelo o1 de OpenAI tuvo un rendimiento algo mejor, con un 8 por ciento. Los sistemas más capaces hasta la fecha, como Gemini 3.1 Pro y Claude Opus 4.6, lograron niveles de precisión entre el 40 y el 50 por ciento.
Nguyen destacó que la superación de los antiguos exámenes por parte de la IA plantea más que una simple preocupación técnica. "Sin herramientas de evaluación precisas, los responsables de políticas, desarrolladores y usuarios corren el riesgo de malinterpretar lo que realmente pueden hacer los sistemas de IA", advirtió. "Los estándares proporcionan la base para medir el progreso e identificar riesgos".
Además, el HLE no sugiere que los humanos se vuelvan obsoletos, sino que pone de relieve la vasta cantidad de conocimiento y experiencia que sigue siendo única de los seres humanos. "No se trata de una carrera contra la IA", concluyó Nguyen. "Es un método para comprender dónde estos sistemas son fuertes y dónde luchan. Esa comprensión nos ayuda a construir tecnologías más seguras y confiables, y nos recuerda por qué la experiencia humana sigue siendo importante".
El HLE está diseñado para servir como un estándar duradero y transparente para futuros sistemas de IA. Los investigadores han hecho públicas algunas preguntas mientras que la mayoría se mantiene en secreto para que los modelos de IA no puedan simplemente memorizar las respuestas. "Por ahora, el Último Examen de la Humanidad se erige como una de las evaluaciones más claras de la brecha entre la IA y la inteligencia humana", afirmó Nguyen, "y a pesar de los rápidos avances tecnológicos, esta brecha sigue siendo amplia".
Lectura rápida
¿Qué es el Último Examen de la Humanidad?
Es un examen creado por cerca de 1,000 expertos que consta de 2,500 preguntas diseñadas para evaluar las capacidades de la IA.
¿Quiénes participaron en su creación?
Un grupo internacional de investigadores, incluyendo al Dr. Tung Nguyen de Texas A&M University.
¿Cuál fue el objetivo del examen?
Identificar áreas donde los sistemas de IA aún tienen deficiencias significativas y no pueden igualar el conocimiento experto humano.
¿Qué resultados arrojó el examen?
Los modelos de IA más avanzados, como GPT-4o y Claude 3.5, obtuvieron puntuaciones muy bajas, mostrando una gran brecha con respecto al conocimiento experto.
¿Por qué son necesarios nuevos estándares para la IA?
Para evitar malentendidos sobre lo que los sistemas de IA pueden lograr y para establecer un marco de evaluación que identifique riesgos y progreso.





