En vivo

Turno Noche

Gustavo Vinderola

Argentina

En vivo

Turno Noche

Gustavo Vinderola

Rosario

En vivo

La Central Deportiva

Unión vs. Platense

Santa Fe

En vivo

Heatódromo

Fran Reale

En vivo

Modo Cuarteto

Agostina y Conrado

En vivo

Música ligera

Radio

Podcast

La mesa de café

Podcast

La otra mirada

Podcast

El dato confiable

Podcast

3x1=4

Podcast

La quinta pata del gato

Podcast

Cuadro de Situación

Podcast

80 años del Cuarteto

Podcast

Nazareno Cruz y el Lobo

Podcast

La Chacarera, el latido del monte

Podcast

Francisco: los 10 años del Papa argentino

Podcast

Manual para transformar Argentina

Escuchá lo último

Elegí tu emisora

Tecnología

¿Están listos los agentes de IA para el trabajo? Un nuevo estudio genera dudas

Investigaciones recientes indican que los modelos de IA actuales fallan en tareas laborales reales, superando apenas el 25% de aciertos en campos como la banca y la abogacía.

22/01/2026 | 19:28Redacción Cadena 3

¿Están listos los agentes de IA para el trabajo? Un nuevo estudio genera dudas

FOTO: ¿Están listos los agentes de IA para el trabajo? Un nuevo estudio genera dudas

Desde la predicción del CEO de Microsoft, Satya Nadella, sobre la posibilidad de que la inteligencia artificial (IA) reemplace trabajos de oficina, la evolución de estos modelos ha sido notable. Sin embargo, a pesar de los avances, la implementación efectiva en el ámbito laboral ha sido lenta. Los modelos de IA han demostrado habilidades en investigación profunda y planificación, pero su rendimiento en el trabajo cotidiano aún deja mucho que desear.

Recientemente, un estudio del gigante de datos de entrenamiento Mercor introdujo un nuevo estándar de evaluación, denominado Apex-Agents, para analizar cómo los modelos de IA enfrentan tareas laborales reales en sectores como la consultoría, la banca de inversión y el derecho. Los resultados fueron desalentadores: todos los laboratorios de IA evaluados obtuvieron calificaciones reprobatorias. En un entorno de trabajo simulado, los modelos no lograron responder correctamente más del 25% de las preguntas planteadas por profesionales reales, y en la mayoría de los casos, proporcionaron respuestas incorrectas o ninguna respuesta.

El investigador Brendan Foody, quien participó en el estudio, destacó que el principal desafío para estos modelos radica en la capacidad de reunir información de múltiples dominios, algo esencial en la mayoría de los trabajos de conocimiento que realizan los humanos. "Uno de los cambios significativos en este estándar es que construimos todo el entorno, modelado según cómo funcionan realmente los servicios profesionales", explicó Foody. "En la vida real, operamos a través de plataformas como Slack y Google Drive, entre otras herramientas. Para muchos modelos de IA, ese tipo de razonamiento multi-dominio sigue siendo incierto".

El estudio utilizó escenarios reales de profesionales en el mercado de expertos de Mercor, quienes definieron las consultas y los criterios para una respuesta exitosa. Por ejemplo, una pregunta en la sección de derecho requería que los modelos evaluaran si una empresa podía tratar ciertos registros de producción como consistentes con la legislación de la UE. La respuesta correcta era afirmativa, pero requería un análisis profundo de las políticas de la empresa y las leyes de privacidad europeas.

El desafío que enfrentan los modelos de IA se vuelve aún más relevante a medida que se considera su potencial para reemplazar a los abogados en el futuro. "Creo que este es probablemente el tema más importante en la economía", comentó Foody. "El estándar refleja de manera muy precisa el trabajo real que realizan estas personas".

A pesar de que ninguno de los modelos demostró estar listo para asumir roles como banqueros de inversión, algunos se acercaron más que otros. Gemini 3 Flash fue el que mejor desempeño tuvo, con un 24% de precisión en las respuestas, seguido de GPT-5.2 con un 23%. En comparación, otros modelos como Opus 4.5, Gemini 3 Pro y GPT-5 rondaron el 18%.

Aunque los resultados iniciales no son alentadores, el campo de la IA ha demostrado un historial de superar desafíos en evaluaciones. Con el estándar Apex ahora disponible públicamente, se plantea un reto abierto para los laboratorios de IA que creen poder mejorar estos resultados, algo que Foody espera ver en los próximos meses. "Está mejorando muy rápido", concluyó. "Es justo decir que actualmente es como un pasante que acierta una de cada cuatro veces, pero el año pasado era un pasante que acertaba cinco o diez por ciento de las veces. Esa clase de mejora año tras año puede tener un impacto muy rápido".

Lectura rápida

¿Qué estudió el informe?
El informe analizó el desempeño de modelos de IA en tareas laborales reales, revelando que fallaron en más del 75% de los casos.

¿Quién realizó el estudio?
El estudio fue realizado por Mercor, un gigante en datos de entrenamiento.

¿Cuándo se publicaron los resultados?
Los resultados se publicaron el 22 de enero de 2026.

¿Dónde se aplicaron los modelos de IA?
Los modelos fueron evaluados en escenarios de consultoría, banca de inversión y derecho.

¿Por qué es relevante este estudio?
El estudio destaca las limitaciones actuales de la IA en el ámbito laboral, sugiriendo que aún no están listas para reemplazar trabajos de conocimiento.

Lo más visto

Tecnología

Opinión

Podcast

La otra mirada

Podcast

La mesa de café

Podcast

La quinta pata del gato

Podcast

3x1=4

Podcast

El dato confiable

Podcast

Política esquina Economía

Podcast

Abrapalabra

Podcast

Cuadro de Situación

Podcast

Los editoriales de Alberto Lotuf

Podcast

Agenda económica

Podcast

Las Claves de Zucho