Novedades de Microsoft
03/06/2026 | 01:54
Redacción Cadena 3
Microsoft presentó el pasado martes su nueva herramienta llamada ASSERT, acrónimo de Adaptive Spec-driven Scoring for Evaluation and Regression Testing. Este marco de trabajo de código abierto tiene como objetivo simplificar el proceso de evaluación del comportamiento de sistemas de inteligencia artificial (IA) a través de descripciones en lenguaje natural.
Con ASSERT, los desarrolladores pueden traducir descripciones de alto nivel sobre los objetivos y políticas de sus modelos de IA en pruebas exhaustivas y puntajes que pueden ser analizados. Esta herramienta busca llenar un vacío en la evaluación de modelos de IA, permitiendo que se comporten de acuerdo con el contexto, políticas y herramientas específicas de una aplicación.
El proceso comienza con la introducción de descripciones en lenguaje natural sobre el comportamiento esperado del modelo de IA. A partir de estas descripciones, ASSERT genera un conjunto estructurado de comportamientos aceptables y no aceptables, creando escenarios problemáticos y casos de prueba que se ejecutan contra el sistema objetivo, generando resultados que pueden ser analizados por los desarrolladores.
Por ejemplo, un desarrollador podría especificar que un agente de investigación de documentos no debe enviar correos electrónicos a personas fuera de la empresa, y que debe limitar la información confidencial a ejecutivos de nivel C. ASSERT utilizará esas reglas para generar casos de prueba que verifiquen si el sistema cumple con esas directrices de manera continua.
La herramienta también permite a los desarrolladores proporcionar contexto del sistema, herramientas y restricciones para personalizar aún más las evaluaciones. Sarah Bird, directora de producto de IA Responsable en Microsoft, destacó la importancia de las evaluaciones, afirmando: "Lo que hemos aprendido es que las evaluaciones son absolutamente críticas para tomar buenas decisiones. Si no entiendes el comportamiento del sistema de IA, es muy difícil saber si está cumpliendo con los estándares de tu organización".
Bird también mencionó que ASSERT puede ser utilizada para evaluar sistemas en diferentes etapas: durante su construcción, después de su implementación y para monitoreos continuos. Esta presentación se da en un contexto de creciente atención en la industria de la IA hacia pruebas repetibles y controles de regresión, con iniciativas como HELM de Stanford y AILuminate de MLCommons estableciendo estándares para medir el comportamiento de los modelos bajo diversas condiciones.
¿Qué es ASSERT?
ASSERT es una herramienta de Microsoft que permite evaluar el comportamiento de sistemas de IA utilizando descripciones en lenguaje natural.
¿Quién presentó la herramienta?
La herramienta fue presentada por Microsoft, específicamente por su equipo de IA Responsable liderado por Sarah Bird.
¿Cuándo fue lanzada?
ASSERT fue lanzada el 2 de junio de 2026.
¿Dónde se puede utilizar?
Se puede utilizar en diferentes etapas del desarrollo de sistemas de IA, incluyendo su construcción y monitoreo continuo.
¿Por qué es importante?
Permite a los desarrolladores asegurarse de que sus sistemas de IA cumplan con las políticas y comportamientos deseados, mejorando la confianza en su uso.
Te puede Interesar
Anuncio en Computex 2026
Nvidia presentó su nuevo CPU RTX Spark en Computex, que permitirá a PCs de marcas como Microsoft y Dell ejecutar agentes de IA de forma segura. Este superchip promete revolucionar el mercado de computadoras personales.
Cambios en la facturación de Copilot
Los usuarios de Github Copilot se muestran consternados por el cambio a un sistema de facturación basado en tokens, que podría aumentar significativamente sus costos mensuales.
Restricciones en el uso de herramientas de inteligencia artificial
La compañía de transporte Uber ha establecido un límite de 1.500 dólares mensuales por empleado para el uso de herramientas de IA, tras haber agotado su presupuesto anual en solo cuatro meses.
Nuevas regulaciones sobre inteligencia artificial
El presidente Donald Trump firmó una orden ejecutiva revisada que exige revisiones gubernamentales voluntarias de modelos avanzados de IA antes de su lanzamiento, tras presiones del sector.