Nuevas capacidades en la API de OpenAI

OpenAI lanza nuevas funciones de inteligencia vocal en su API

07/05/2026 | 21:56

La nueva API de OpenAI incluye funciones de voz que permiten a las aplicaciones hablar, transcribir y traducir conversaciones en tiempo real. Ideal para atención al cliente y otros sectores.

Redacción Cadena 3

OpenAI anunció el jueves que su API incorporará nuevas funciones de inteligencia vocal diseñadas para ayudar a los desarrolladores a crear aplicaciones que puedan hablar, transcribir y traducir conversaciones con los usuarios.

La compañía lanzó el nuevo modelo GPT-Realtime-2, un modelo de voz que simula la conversación con los usuarios de manera realista. A diferencia de su predecesor (GPT-Realtime-1.5), este nuevo modelo se basa en la clase de razonamiento GPT-5, creado para manejar solicitudes más complejas de los usuarios.

Además, la empresa lanzó GPT-Realtime-Translate, que proporciona servicios de traducción en tiempo real que "mantienen el ritmo" de la conversación. Esta función incluye más de 70 idiomas de entrada (idiomas que puede comprender) y 13 idiomas de salida (idiomas que se relatan al hablante).

Por último, se presentó la nueva capacidad de transcripción, GPT-Realtime-Whisper, que ofrece a los usuarios capacidades de voz a texto en vivo, capturando las interacciones a medida que ocurren.

La compañía destacó: "Juntas, los modelos que estamos lanzando mueven el audio en tiempo real de una simple respuesta a interfaces de voz que realmente pueden trabajar: escuchar, razonar, traducir, transcribir y tomar acción a medida que se desarrolla la conversación".

¿A quién beneficiarán estas actualizaciones? Las empresas que buscan expandir sus capacidades de atención al cliente son un objetivo obvio. Sin embargo, OpenAI también señala que sus nuevas funciones ayudarán en una amplia variedad de áreas, incluyendo educación, medios, eventos y plataformas para creadores, entre otros.

A pesar de la utilidad de estas herramientas desde una perspectiva empresarial, también es plausible que puedan ser mal utilizadas. La empresa afirmó que ha implementado salvaguardias para evitar que sus nuevas funciones se utilicen para crear spam, fraude u otras formas de abuso en línea. Se han incorporado ciertos disparadores en el sistema para que "las conversaciones puedan ser detenidas si se detecta que violan nuestras pautas de contenido dañino", afirmó OpenAI.

Todos los nuevos modelos de voz están incluidos en la API Realtime de OpenAI. Translate y Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura por consumo de tokens.

Lectura rápida

¿Qué anunció OpenAI?
OpenAI anunció nuevas funciones de inteligencia vocal en su API, incluyendo modelos para conversación, traducción y transcripción en tiempo real.

¿Quién es el autor del artículo?
El artículo fue escrito por Lucas Ropek, un periodista de TechCrunch especializado en tecnología y AI.

¿Cuándo se lanzó esta nueva API?
La nueva API se anunció el 7 de mayo de 2026.

¿Dónde se pueden utilizar estas funciones?
Estas funciones están dirigidas a empresas que buscan mejorar la atención al cliente, pero también tienen aplicaciones en educación y otros sectores.

¿Qué medidas de seguridad implementó OpenAI?
OpenAI incorporó salvaguardias para evitar el uso indebido de sus funciones, impidiendo el spam y el fraude.

Te puede Interesar

Medidas de seguridad de OpenAI

OpenAI lanza nuevas funciones de inteligencia vocal en su API

La nueva API de OpenAI incluye funciones de voz que permiten a las aplicaciones hablar, transcribir y traducir conversaciones en tiempo real. Ideal para atención al cliente y otros sectores.

Lectura rápida

OpenAI lanza 'Contacto de Confianza' para prevenir el suicidio en ChatGPT

Cerebras, socio de OpenAI, se prepara para una salida a bolsa millonaria

Ramp busca alcanzar una valoración de más de 40 mil millones de dólares

Google lanza un coach de salud AI por $9.99 al mes a partir del 19 de mayo