OpenAI lanzó una nueva función de inteligencia de voz en su API


OpenAI dijo el jueves que su API ahora incluirá una serie de nuevas funciones de inteligencia de voz diseñadas para ayudar a los desarrolladores a crear aplicaciones que puedan hablar, transcribir y traducir conversaciones con los usuarios.

propiedad de la empresa Nuevo GPT‑Realtime‑2 es otro modelo de voz, creado para crear simulaciones vocales realistas con las que los usuarios puedan comunicarse. Sin embargo, a diferencia de su predecesor (GPT-Realtime-1.5), este se basa en la clase GPT-5- que, según OpenAI, se creó para manejar solicitudes más complejas de los usuarios.

La compañía también lanzó GPT-Realtime-Translate que, como parece, está diseñado para proporcionar un servicio de traducción en tiempo real que “sigue el ritmo” del usuario en la conversación. Esta característica cubre más de 70 idiomas de entrada (es decir, el idioma que puede entender) y 13 idiomas de salida (el idioma que se transmite al hablante).

Por último, la compañía también lanzó una nueva capacidad de transcripción, GPT-Realtime-Whisper, que brinda a los usuarios capacidades de conversión de voz a texto en vivo capturadas a medida que ocurre la interacción.

“Juntos, los modelos que lanzamos trasladan el audio en tiempo real desde una simple llamada y respuesta a una interfaz de voz que realmente puede hacer el trabajo: escuchar, razonar, traducir, transcribir y actuar a medida que se desarrolla la conversación”, dijo la compañía.

¿Para quién es útil esta actualización? Las empresas que buscan ampliar las capacidades de servicio al cliente son un objetivo obvio. Sin embargo, OpenAI también señaló que sus nuevas funciones ayudarán en varios campos, incluida la educación, los medios, los eventos y las plataformas de creación de contenido.

Si bien estas herramientas pueden parecer útiles desde la perspectiva de una empresa, también parece razonable que puedan utilizarse indebidamente. La compañía dice que ha creado barreras de seguridad para detener el uso indebido de sus nuevas funciones para crear spam, fraude u otras formas de abuso en línea. Ciertos activadores están integrados en el sistema para que “las conversaciones puedan detenerse si se detecta que violan nuestras pautas de contenido dañino”, dijo OpenAI.

Evento tecnológico

San Francisco, California
|
13-15 de octubre de 2026

Todos los nuevos modelos de sonido están incluidos en él. API en tiempo real OpenAI. Translate y Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura en función del consumo de tokens.

Cuando compra a través de enlaces en nuestros artículos, es posible que ganemos una pequeña comisión. Esto no afecta nuestra independencia editorial.



Source link