El Modo de Voz Avanzado de OpenAI llega a los usuarios de ChatGPT Plus

Comienza el despliegue

El 30 de julio de 2024, OpenAI comenzó a implementar su Modo de Voz Avanzado (AVM) para un subconjunto de suscriptores de ChatGPT Plus. La función, presentada por primera vez durante el evento de lanzamiento de GPT-4o en mayo, reemplaza el modo de voz anterior que dependía de tres modelos separados (un modelo de voz a texto, un modelo de lenguaje y un modelo de texto a voz) con un único Pipeline multimodal. AVM puede procesar directamente el tono, el ritmo y la entonación, lo que le permite reír, susurrar o expresar emoción sin intermediación de texto. El despliegue inicial se limita a un pequeño número de usuarios de Plus, y se espera un lanzamiento más amplio para el otoño de 2024.

El salto técnico detrás del Modo de Voz Avanzado

A diferencia del modo de voz anterior, que tenía una latencia media de aproximadamente 2,8 segundos por ida y vuelta, AVM logra una interacción de voz de extremo a extremo en menos de 320 milisegundos, comparable a los turnos conversacionales humanos. OpenAI lo consigue alimentando audio sin procesar en las capas de atención multimodales de GPT-4o, evitando el cuello de botella de la transcripción. El modelo también maneja las interrupciones de forma natural: si un usuario dice "Espera, déjame reconsiderarlo", la IA se detiene a mitad de frase y escucha. Esto requirió reentrenar los parámetros de decaimiento del modelo para evitar truncar el habla del usuario.

Otro detalle técnico es la integración de un detector de eventos no verbales. Cuando un usuario tose, suspira o ríe, el modelo puede decidir si reconocerlo o continuar el flujo, según el contexto. En Benchmarks internos, AVM identificó correctamente señales emocionales como frustración o vacilación el 87% del tiempo, frente al 52% del Pipeline anterior basado en texto. Sin embargo, el modelo aún depende de un módulo separado de detección de actividad de voz para determinar cuándo el usuario ha terminado de hablar, lo que puede introducir falsos positivos ocasionales en entornos ruidosos.

Implementación y disponibilidad

El Modo de Voz Avanzado está disponible inicialmente solo para suscriptores de ChatGPT Plus en Estados Unidos, que pagan $20 al mes. OpenAI planea expandirlo a los niveles Team y Enterprise más adelante en el cuarto trimestre de 2024, con un despliegue educativo a principios de 2025. Los usuarios del nivel gratuito no recibirán el modo de voz en absoluto, ya que los márgenes de beneficio de la empresa en los costos de inferencia para audio son significativamente más bajos que para texto. OpenAI estima que procesar un minuto de conversación de voz interactiva cuesta aproximadamente ocho veces más que generar 4.000 Tokens de texto.

Para gestionar la carga del servidor, la empresa ha limitado el uso a una "asignación diaria limitada" de aproximadamente 30 minutos de conversación de voz activa por usuario al día. Este límite puede cambiar a medida que mejore la eficiencia del hardware de inferencia. OpenAI también está lanzando cinco nuevas opciones de voz: Breeze, Cove, Ember, Juniper y Vale, además de las existentes Sky, Breeze y Cove. Cada voz fue entrenada con el audio de un actor distinto bajo acuerdos de licencia.

Cómo se compara con funciones de voz anteriores

El modo de voz anterior, lanzado en septiembre de 2023, usaba Whisper para voz a texto, GPT-4 (o GPT-3.5) para generar respuestas y un modelo de texto a voz interno basado en TorToiSe. Ese Pipeline se rompía cuando los usuarios querían hacer preguntas de seguimiento en una discusión acalorada: el flujo conversacional era torpe porque todo el transcript tenía que reenviarse al modelo de lenguaje después de cada ida y vuelta de voz. AVM elimina esto transmitiendo el audio directamente al decodificador autorregresivo de GPT-4o, lo que permite al modelo mantener un hilo coherente a lo largo de interacciones de voz de múltiples turnos sin digresiones visibles.

Siri de Apple y Alexa de Amazon se basan en arquitecturas en cascada similares (voz a texto, NLU, texto a voz) y tienen latencias más cercanas a 800 ms a 1,5 segundos por turno. Gemini Live de Google, anunciado en mayo de 2024, también promete un modo de voz multimodal, pero al momento de escribir esto aún está en beta limitada y no admite el manejo de interrupciones en tiempo real. OpenAI afirma que AVM es el primer asistente de voz con IA implementado comercialmente que puede simular un rango emocional sin intenciones explícitas predefinidas.

Seguridad y barreras de protección

OpenAI ha implementado varias medidas de seguridad específicas para el Modo de Voz Avanzado. El sistema utiliza un "clasificador de imitación de voz" separado que detecta y bloquea cualquier intento de suplantar a una persona específica, por ejemplo, produciendo una voz que coincida con el timbre del usuario para phishing. También se prohíbe al modelo generar sonidos "sensibles" como sirenas, llantos de bebés o ruidos sexuales. Durante pruebas internas de red teaming, el clasificador detuvo el 92% de los intentos de suplantación, pero tres casos extremos en pruebas tempranas permitieron que el modelo imitara a un usuario después de siete segundos ininterrumpidos de entrada de audio.

Además, OpenAI añadió una marca de agua a todas las salidas de audio generadas, incrustando una firma digital única que luego puede rastrearse hasta una sesión de usuario específica. Esta marca de agua es imperceptible para los humanos, pero puede ser leída por la herramienta forense de la empresa. La compañía también ha restringido el uso de la función en contextos de emergencia: si un usuario dice "Estoy teniendo un ataque al corazón", el modelo está entrenado para responder "No soy un profesional médico; por favor, llama al 911" en lugar de dar instrucciones.

Casos de uso potenciales e implicaciones

Los primeros evaluadores han utilizado AVM para tutoría de idiomas, corrigiendo la pronunciación y el ritmo en tiempo real, y para reflexión de estilo terapéutico, donde el modelo ajusta su tono para igualar el estado emocional del usuario. Algunos desarrolladores están explorando AVM como reemplazo de los sistemas interactivos de respuesta de voz en atención al cliente, pero los términos actuales de la API de OpenAI prohíben revender el modo de voz como producto independiente. La función también plantea preguntas de privacidad: todos los clips de audio se almacenan temporalmente en los servidores de OpenAI para la mejora del modelo, a menos que el usuario lo desactive en la configuración. La política de privacidad de la empresa señala que las grabaciones de audio pueden ser revisadas por anotadores humanos, pero solo después de eliminar la información de identificación personal.

Con AVM, la IA conversacional ha cruzado un umbral donde el medio en sí mismo (tono, tiempo, emoción) se convierte en parte de la información transmitida, en lugar de un efecto secundario. Si eso lleva a un mayor compromiso del usuario o a nuevas formas de manipulación depende de lo rápido que evolucionen las barreras de protección junto con la tecnología.