Novedades de Microsoft

Microsoft lanza herramienta para evaluar el comportamiento de IA mediante descripciones

03/06/2026 | 01:54

La nueva herramienta de Microsoft, llamada ASSERT, permite a los desarrolladores evaluar el comportamiento de sus sistemas de IA utilizando descripciones en lenguaje natural. Este marco de código abierto busca facilitar las pruebas de comportamiento específicas de aplicaciones.

Redacción Cadena 3

Microsoft presentó el pasado martes su nueva herramienta llamada ASSERT, acrónimo de Adaptive Spec-driven Scoring for Evaluation and Regression Testing. Este marco de trabajo de código abierto tiene como objetivo simplificar el proceso de evaluación del comportamiento de sistemas de inteligencia artificial (IA) a través de descripciones en lenguaje natural.

Con ASSERT, los desarrolladores pueden traducir descripciones de alto nivel sobre los objetivos y políticas de sus modelos de IA en pruebas exhaustivas y puntajes que pueden ser analizados. Esta herramienta busca llenar un vacío en la evaluación de modelos de IA, permitiendo que se comporten de acuerdo con el contexto, políticas y herramientas específicas de una aplicación.

El proceso comienza con la introducción de descripciones en lenguaje natural sobre el comportamiento esperado del modelo de IA. A partir de estas descripciones, ASSERT genera un conjunto estructurado de comportamientos aceptables y no aceptables, creando escenarios problemáticos y casos de prueba que se ejecutan contra el sistema objetivo, generando resultados que pueden ser analizados por los desarrolladores.

Por ejemplo, un desarrollador podría especificar que un agente de investigación de documentos no debe enviar correos electrónicos a personas fuera de la empresa, y que debe limitar la información confidencial a ejecutivos de nivel C. ASSERT utilizará esas reglas para generar casos de prueba que verifiquen si el sistema cumple con esas directrices de manera continua.

La herramienta también permite a los desarrolladores proporcionar contexto del sistema, herramientas y restricciones para personalizar aún más las evaluaciones. Sarah Bird, directora de producto de IA Responsable en Microsoft, destacó la importancia de las evaluaciones, afirmando: "Lo que hemos aprendido es que las evaluaciones son absolutamente críticas para tomar buenas decisiones. Si no entiendes el comportamiento del sistema de IA, es muy difícil saber si está cumpliendo con los estándares de tu organización".

Bird también mencionó que ASSERT puede ser utilizada para evaluar sistemas en diferentes etapas: durante su construcción, después de su implementación y para monitoreos continuos. Esta presentación se da en un contexto de creciente atención en la industria de la IA hacia pruebas repetibles y controles de regresión, con iniciativas como HELM de Stanford y AILuminate de MLCommons estableciendo estándares para medir el comportamiento de los modelos bajo diversas condiciones.

Lectura rápida

¿Qué es ASSERT?
ASSERT es una herramienta de Microsoft que permite evaluar el comportamiento de sistemas de IA utilizando descripciones en lenguaje natural.

¿Quién presentó la herramienta?
La herramienta fue presentada por Microsoft, específicamente por su equipo de IA Responsable liderado por Sarah Bird.

¿Cuándo fue lanzada?
ASSERT fue lanzada el 2 de junio de 2026.

¿Dónde se puede utilizar?
Se puede utilizar en diferentes etapas del desarrollo de sistemas de IA, incluyendo su construcción y monitoreo continuo.

¿Por qué es importante?
Permite a los desarrolladores asegurarse de que sus sistemas de IA cumplan con las políticas y comportamientos deseados, mejorando la confianza en su uso.

Te puede Interesar

Anuncio en Computex 2026

Microsoft lanza herramienta para evaluar el comportamiento de IA mediante descripciones

La nueva herramienta de Microsoft, llamada ASSERT, permite a los desarrolladores evaluar el comportamiento de sus sistemas de IA utilizando descripciones en lenguaje natural. Este marco de código abierto busca facilitar las pruebas de comportamiento específicas de aplicaciones.

Lectura rápida

Nvidia busca conquistar el mercado de CPU de 200 mil millones con PCs de IA

'Qué locura': la nueva facturación por tokens de Github Copilot genera malestar

Uber limita el gasto en IA tras agotar su presupuesto en solo cuatro meses

Trump firma orden ejecutiva sobre IA tras objeciones de la industria