Nuevas capacidades en la API de OpenAI
07/05/2026 | 21:56
Redacción Cadena 3
OpenAI anunció el jueves que su API incorporará nuevas funciones de inteligencia vocal diseñadas para ayudar a los desarrolladores a crear aplicaciones que puedan hablar, transcribir y traducir conversaciones con los usuarios.
La compañía lanzó el nuevo modelo GPT-Realtime-2, un modelo de voz que simula la conversación con los usuarios de manera realista. A diferencia de su predecesor (GPT-Realtime-1.5), este nuevo modelo se basa en la clase de razonamiento GPT-5, creado para manejar solicitudes más complejas de los usuarios.
Además, la empresa lanzó GPT-Realtime-Translate, que proporciona servicios de traducción en tiempo real que "mantienen el ritmo" de la conversación. Esta función incluye más de 70 idiomas de entrada (idiomas que puede comprender) y 13 idiomas de salida (idiomas que se relatan al hablante).
Por último, se presentó la nueva capacidad de transcripción, GPT-Realtime-Whisper, que ofrece a los usuarios capacidades de voz a texto en vivo, capturando las interacciones a medida que ocurren.
La compañía destacó: "Juntas, los modelos que estamos lanzando mueven el audio en tiempo real de una simple respuesta a interfaces de voz que realmente pueden trabajar: escuchar, razonar, traducir, transcribir y tomar acción a medida que se desarrolla la conversación".
¿A quién beneficiarán estas actualizaciones? Las empresas que buscan expandir sus capacidades de atención al cliente son un objetivo obvio. Sin embargo, OpenAI también señala que sus nuevas funciones ayudarán en una amplia variedad de áreas, incluyendo educación, medios, eventos y plataformas para creadores, entre otros.
A pesar de la utilidad de estas herramientas desde una perspectiva empresarial, también es plausible que puedan ser mal utilizadas. La empresa afirmó que ha implementado salvaguardias para evitar que sus nuevas funciones se utilicen para crear spam, fraude u otras formas de abuso en línea. Se han incorporado ciertos disparadores en el sistema para que "las conversaciones puedan ser detenidas si se detecta que violan nuestras pautas de contenido dañino", afirmó OpenAI.
Todos los nuevos modelos de voz están incluidos en la API Realtime de OpenAI. Translate y Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura por consumo de tokens.
¿Qué anunció OpenAI?
OpenAI anunció nuevas funciones de inteligencia vocal en su API, incluyendo modelos para conversación, traducción y transcripción en tiempo real.
¿Quién es el autor del artículo?
El artículo fue escrito por Lucas Ropek, un periodista de TechCrunch especializado en tecnología y AI.
¿Cuándo se lanzó esta nueva API?
La nueva API se anunció el 7 de mayo de 2026.
¿Dónde se pueden utilizar estas funciones?
Estas funciones están dirigidas a empresas que buscan mejorar la atención al cliente, pero también tienen aplicaciones en educación y otros sectores.
¿Qué medidas de seguridad implementó OpenAI?
OpenAI incorporó salvaguardias para evitar el uso indebido de sus funciones, impidiendo el spam y el fraude.
Te puede Interesar
Medidas de seguridad de OpenAI
La nueva función de OpenAI permite a los usuarios de ChatGPT designar a un contacto de confianza que será notificado en casos de autolesiones. Esta medida busca mejorar la seguridad de los usuarios en la plataforma.
Cerebras Systems busca salir a bolsa
La empresa de chips para inteligencia artificial Cerebras anunció que planea salir a bolsa, buscando una valoración de 26.600 millones de dólares. Su relación con OpenAI es clave para este movimiento.
Fintech y Startups
La empresa de gestión de gastos corporativos está en negociaciones para recaudar 750 millones de dólares, superando su anterior valoración de 32 mil millones. La última recaudación fue en noviembre.
Lanzamiento de Google Health
El nuevo coach de salud, impulsado por Gemini, combinará funciones de entrenador físico, experto en sueño y asesor de bienestar. Su lanzamiento está programado para el 19 de mayo de 2026.