El examen más difícil de IA revela sorprendentes resultados sobre su desempeño

Casi 1,000 expertos crearon "El Último Examen de la Humanidad", un desafío de 2,500 preguntas que pone a prueba a la IA. Los primeros resultados muestran que los sistemas más avanzados aún tienen mucho por aprender.

13/03/2026 | 15:48Redacción Cadena 3

FOTO: El Último Examen de la Humanidad desafía a la IA

En un esfuerzo por evaluar de manera más precisa las capacidades de la inteligencia artificial, un grupo internacional de cerca de 1,000 investigadores, entre los que se encuentra un profesor de Texas A&M University, desarrolló un nuevo examen titulado "El Último Examen de la Humanidad" (HLE). Este examen, que consta de 2,500 preguntas, abarca una amplia variedad de temas, desde matemáticas y ciencias naturales hasta humanidades y lenguas antiguas.

La necesidad de este examen surgió cuando los sistemas de IA comenzaron a obtener resultados sobresalientes en pruebas académicas tradicionales, lo que llevó a los investigadores a concluir que esos estándares ya no eran suficientemente desafiantes. El HLE fue diseñado específicamente para eliminar preguntas que pudieran ser resueltas por los modelos de IA actuales, asegurando que cada pregunta tuviera una única respuesta verificable y evitando que se resolvieran mediante búsquedas simples en Internet.

Entre los colaboradores del proyecto se encuentra el Dr. Tung Nguyen, profesor asociado en el Departamento de Ciencias de la Computación e Ingeniería de Texas A&M, quien ayudó a redactar y afinar muchas de las preguntas del examen. "Cuando los sistemas de IA comienzan a desempeñarse extremadamente bien en los estándares humanos, es tentador pensar que están alcanzando un nivel de comprensión humana", comentó Nguyen. "Pero el HLE nos recuerda que la inteligencia no se trata solo de reconocimiento de patrones, sino de profundidad, contexto y experiencia especializada".

La intención del examen no fue engañar o vencer a los humanos, sino identificar cuidadosamente las áreas donde los sistemas de IA todavía tienen fallas significativas. Los investigadores probaron cada pregunta contra los modelos de IA más avanzados, y si algún modelo logró responder correctamente, esa pregunta fue eliminada del examen final, lo que garantizó que el examen permaneciera más allá de lo que los sistemas de IA actuales pueden resolver de manera confiable.

Los resultados iniciales confirmaron que la estrategia fue efectiva. Por ejemplo, el modelo GPT-4o obtuvo solo un 2.7 por ciento de respuestas correctas, mientras que Claude 3.5 Sonnet alcanzó un 4.1 por ciento. El modelo o1 de OpenAI tuvo un rendimiento algo mejor, con un 8 por ciento. Los sistemas más capaces hasta la fecha, como Gemini 3.1 Pro y Claude Opus 4.6, lograron niveles de precisión entre el 40 y el 50 por ciento.

Nguyen destacó que la superación de los antiguos exámenes por parte de la IA plantea más que una simple preocupación técnica. "Sin herramientas de evaluación precisas, los responsables de políticas, desarrolladores y usuarios corren el riesgo de malinterpretar lo que realmente pueden hacer los sistemas de IA", advirtió. "Los estándares proporcionan la base para medir el progreso e identificar riesgos".

Además, el HLE no sugiere que los humanos se vuelvan obsoletos, sino que pone de relieve la vasta cantidad de conocimiento y experiencia que sigue siendo única de los seres humanos. "No se trata de una carrera contra la IA", concluyó Nguyen. "Es un método para comprender dónde estos sistemas son fuertes y dónde luchan. Esa comprensión nos ayuda a construir tecnologías más seguras y confiables, y nos recuerda por qué la experiencia humana sigue siendo importante".

El HLE está diseñado para servir como un estándar duradero y transparente para futuros sistemas de IA. Los investigadores han hecho públicas algunas preguntas mientras que la mayoría se mantiene en secreto para que los modelos de IA no puedan simplemente memorizar las respuestas. "Por ahora, el Último Examen de la Humanidad se erige como una de las evaluaciones más claras de la brecha entre la IA y la inteligencia humana", afirmó Nguyen, "y a pesar de los rápidos avances tecnológicos, esta brecha sigue siendo amplia".

Lectura rápida

¿Qué es el Último Examen de la Humanidad?
Es un examen creado por cerca de 1,000 expertos que consta de 2,500 preguntas diseñadas para evaluar las capacidades de la IA.

¿Quiénes participaron en su creación?
Un grupo internacional de investigadores, incluyendo al Dr. Tung Nguyen de Texas A&M University.

¿Cuál fue el objetivo del examen?
Identificar áreas donde los sistemas de IA aún tienen deficiencias significativas y no pueden igualar el conocimiento experto humano.

¿Qué resultados arrojó el examen?
Los modelos de IA más avanzados, como GPT-4o y Claude 3.5, obtuvieron puntuaciones muy bajas, mostrando una gran brecha con respecto al conocimiento experto.

¿Por qué son necesarios nuevos estándares para la IA?
Para evitar malentendidos sobre lo que los sistemas de IA pueden lograr y para establecer un marco de evaluación que identifique riesgos y progreso.

Temas

Lo último

03:54 Tecnología

Intervenciones policiales en emergencias. La policía interviene en el rescate de vehículos autónomos de Waymo

03:53 Tecnología

Adquisición de Meta en el centro de la polémica. Manus, la startup china que se unió a Meta, enfrenta problemas en Beijing

03:48 Ciencia

Investigación sobre el equilibrio en adultos mayores. El cerebro podría estar saboteando tu equilibrio a medida que envejeces

03:44 Mundo

Los Ángeles se afianza en la lucha por los playoffs. Los Clippers triunfan 119-94 ante los Raptors con gran actuación de Kawhi Leonard

02:20 Mundo

NBA: un duelo emocionante en Denver. Jamal Murray brilla con 53 puntos y Denver supera a Dallas en un emocionante encuentro

Escuchá lo último

Audio. Juan Mazzarello: “Brasil tiene una historia muy distinta que nosotros sobre racismo”
Turno Noche
Episodios
Audio. Amamos Argentina - Programa completo 25-03-2026
Amamos Argentina
Episodios
Audio. “Diego Vive”, una muestra inmersiva en Córdoba sobre la trayectoria de Maradona
Fútbol
Episodios
Audio. Catriel y Paco Amoroso inician gira mundial con disco nuevo y gran expectativa
Panorama Federal
Episodios
Audio. Laciar evocó la hazaña de Soweto: KO al primer campeón negro en pleno apartheid
Amamos Argentina
Episodios
Audio. Río Cuarto lanza la segunda edición del programa Ecoeduca 2026 para una comunidad sostenible
Panorama Federal
Episodios
Audio. Con humor y reflexión, continúa la temporada en el Teatro Real de Córdoba
Turno Noche
Episodios
Audio. Silvia Lallana reveló la historia de “Pedro Canoero” y su impacto en Paraguay
Amamos Argentina
Episodios
Audio. Mendoza se prepara para el Wine Rock 2026, el festival de vendimia más esperado
Panorama Federal
Episodios
Audio. Renuncia del secretario de ética pública en San Luis por causas judiciales
Panorama Federal
Episodios
Audio. Tucumán enfrenta el resurgimiento de enfermedades por el cambio climático
Panorama Federal
Episodios
Audio. A 20 años del fallecimiento de Rocío Dúrcal: el recuerdo de la radio
Amamos Argentina
Episodios
Audio. Ronaldo Martínez, a Cadena 3: "No me preocupa no hacer goles; ya van a llegar"
La Cadena del Gol
Episodios
Audio. El ballet folclórico de Salta estrena 'Malvinas', un homenaje a los héroes argentinos
Panorama Federal
Episodios
Audio. Una figura pública confirma su regreso a Argentina tras difícil experiencia personal
Panorama Federal
Episodios
Audio. Confusión sobre llamado a Agustín mientras dormía sorprende a Escalón
Panorama Federal
Episodios
Audio. El exfuncionario defiende su patrimonio en medio de acusaciones de corrupción
Panorama Federal
Episodios
Audio. Javier Milei asistirá al informe de gestión de Manuela Dorni en el Congreso
Panorama Federal
Episodios
Audio. El jefe de gabinete enfrenta a la prensa en medio de polémicas y novedades judiciales
Panorama Federal
Episodios
Audio. Polo Obrero convoca conferencia de prensa en Córdoba por programa Volver al Trabajo
Panorama Federal
Episodios