Advanced Voice Mode von OpenAI jetzt für ChatGPT Plus verfügbar

Der Rollout beginnt

Am 30. Juli 2024 startete OpenAI die Einführung des Advanced Voice Mode (AVM) für eine Teilmenge der ChatGPT Plus-Abonnenten. Die Funktion, die erstmals beim GPT-4o-Launch-Event im Mai demonstriert wurde, ersetzt die bisherige Sprachsteuerung, die auf drei separaten Modellen basierte – einem Speech-to-Text-Modell, einem Language Model und einem Text-to-Speech-Modell – durch eine einzige multimodale Pipeline. AVM kann Tonhöhe, Rhythmus und Klangfarbe direkt verarbeiten und so lachen, flüstern oder Aufregung ausdrücken, ohne auf Text als Zwischenschritt angewiesen zu sein. Der erste Rollout ist auf eine kleine Anzahl von Plus-Nutzern beschränkt; eine breitere Einführung ist für Herbst 2024 geplant.

Der technische Sprung hinter Advanced Voice Mode

Im Gegensatz zum vorherigen Sprachmodus, der eine durchschnittliche Latenz von etwa 2,8 Sekunden pro Roundtrip hatte, erreicht AVM eine End-to-End-Sprachinteraktion in unter 320 Millisekunden – vergleichbar mit menschlichen Gesprächspausen. OpenAI erreicht dies, indem rohe Audiodaten direkt in die multimodalen Attention Layers von GPT-4o eingespeist werden, wodurch der Transkriptions-Engpass umgangen wird. Das Modell geht auch auf Unterbrechungen natürlich ein: Sagt ein Nutzer „Warte, lass mich noch einmal überdenken“, stoppt die KI mitten im Satz und hört zu. Dafür mussten die Decay-Parameter des Modells neu trainiert werden, um zu verhindern, dass die Sprache des Nutzers abgeschnitten wird.

Ein weiteres technisches Detail ist die Integration eines Non-Verbal Event Detectors. Wenn ein Nutzer hustet, seufzt oder lacht, kann das Modell entscheiden, ob es darauf eingehen oder den Gesprächsfluss fortsetzen soll – je nach Kontext. In internen Benchmarks erkannte AVM emotionale Hinweise wie Frustration oder Zögern in 87 % der Fälle korrekt, verglichen mit 52 % bei der bisherigen textbasierten Pipeline. Allerdings ist das Modell weiterhin auf ein separates Voice Activity Detection-Modul angewiesen, um zu bestimmen, wann ein Nutzer zu Ende gesprochen hat, was in lauten Umgebungen gelegentlich zu Fehlalarmen führen kann.

Rollout und Verfügbarkeit

Der Advanced Voice Mode ist zunächst nur für ChatGPT Plus-Abonnenten in den Vereinigten Staaten verfügbar, die 20 US-Dollar pro Monat zahlen. OpenAI plant, die Funktion im vierten Quartal 2024 auf Team- und Enterprise-Tarife auszuweiten, gefolgt von einem Educational-Rollout Anfang 2025. Nutzer der kostenlosen Stufe erhalten überhaupt keinen Voice Mode, da die Gewinnmargen des Unternehmens bei Inferenzkosten für Audio deutlich geringer sind als für Text. OpenAI schätzt, dass die Verarbeitung einer Minute interaktiver Sprachkonversation etwa achtmal so teuer ist wie die Generierung von 4.000 Tokens Text.

Um die Serverlast zu kontrollieren, hat das Unternehmen die Nutzung auf ein „begrenztes tägliches Kontingent“ von etwa 30 Minuten aktiver Sprachkonversation pro Nutzer und Tag gedrosselt. Diese Obergrenze kann sich mit Verbesserungen der Inferenzhardware-Effizienz ändern. OpenAI führt außerdem fünf neue Sprachoptionen ein – Breeze, Cove, Ember, Juniper und Vale – zusätzlich zu den bestehenden Sky, Breeze und Cove. Jede Stimme wurde auf der Grundlage der Audiodaten eines bestimmten Schauspielers mit Lizenzvereinbarungen trainiert.

Vergleich mit früheren Sprachfunktionen

Der bisherige Sprachmodus, der im September 2023 eingeführt wurde, nutzte Whisper für Speech-to-Text, GPT-4 (oder GPT-3.5) für die Antwortgenerierung und ein hauseigenes Text-to-Speech-Modell auf Basis von TorToiSe. Diese Pipeline brach zusammen, wenn Nutzer in einer hitzigen Diskussion Nachfragen stellen wollten: Der Gesprächsfluss war holprig, weil das gesamte Transkript nach jedem Sprach-Roundtrip erneut an das Language Model gesendet werden musste. AVM umgeht dies, indem es das Audio direkt in den autoregressiven Decoder von GPT-4o streamt, sodass das Modell einen kohärenten Faden über mehrere Sprachwechsel hinweg aufrechterhalten kann, ohne sichtbare Abschweifungen.

Apples Siri und Amazons Alexa basieren auf ähnlichen kaskadierten Architekturen – Voice-to-Text, NLU, Text-to-Speech – und haben Latenzen zwischen 800 ms und 1,5 Sekunden pro Runde. Googles Gemini Live, das im Mai 2024 angekündigt wurde, verspricht ebenfalls einen multimodalen Voice Mode, befindet sich aber zum Zeitpunkt dieses Artikels noch in einer eingeschränkten Beta und unterstützt keine Echtzeit-Unterbrechungen. OpenAI gibt an, dass AVM die erste kommerziell eingesetzte Sprach-KI ist, die eine emotionale Bandbreite ohne explizite scriptbasierte Intentionen simulieren kann.

Sicherheit und Schutzmaßnahmen

OpenAI hat mehrere spezifische Sicherheitsvorkehrungen für den Advanced Voice Mode implementiert. Das System verwendet einen separaten „Voice Mimicry Classifier“, der jeden Versuch erkennt und blockiert, eine bestimmte Person zu imitieren – beispielsweise eine Stimme zu erzeugen, die der eigenen Klangfarbe eines Nutzers für Phishing-Zwecke entspricht. Das Modell ist zudem daran gehindert, „sensible“ Geräusche wie Sirenen, weinende Babys oder sexuelle Laute zu erzeugen. Bei internen Red-Teaming-Tests stoppte der Classifier 92 % der Identitätsdiebstahl-Versuche, aber drei Grenzfälle während der frühen Tests erlaubten es dem Modell, einen Nutzer nach sieben ununterbrochenen Sekunden Audioeingabe zu imitieren.

Darüber hinaus hat OpenAI ein Wasserzeichen in alle generierten Audioausgaben eingefügt, das eine eindeutige digitale Signatur einbettet, die später zu einer bestimmten Nutzersitzung zurückverfolgt werden kann. Dieses Wasserzeichen ist für Menschen nicht wahrnehmbar, kann aber mit dem forensischen Tool des Unternehmens gelesen werden. Das Unternehmen hat die Funktion außerdem für Notfallkontexte eingeschränkt: Wenn ein Nutzer sagt „Ich habe einen Herzinfarkt“, ist das Modell darauf trainiert, mit „Ich bin kein medizinischer Fachmann; bitte rufen Sie den Notruf 911“ zu antworten, anstatt Anweisungen zu geben.

Potenzielle Anwendungsfälle und Implikationen

Erste Tester haben AVM für Sprachunterricht genutzt – zur Korrektur von Aussprache und Rhythmus in Echtzeit – sowie für therapeutisch angelegte Reflexionen, bei denen das Modell seinen Tonfall an den emotionalen Zustand des Nutzers anpasst. Einige Entwickler erwägen AVM als Ersatz für interaktive Sprachdialogsysteme im Kundenservice, aber die aktuellen API-Bedingungen von OpenAI verbieten den Weiterverkauf des Voice Mode als eigenständiges Produkt. Die Funktion wirft auch Datenschutzfragen auf: Alle Audioaufnahmen werden vorübergehend auf den Servern von OpenAI gespeichert, um das Modell zu verbessern, sofern der Nutzer dies nicht in den Einstellungen deaktiviert. In der Datenschutzerklärung des Unternehmens heißt es, dass Audioaufnahmen von menschlichen Prüfern eingesehen werden können, jedoch nur nach Entfernung personenbezogener Daten.

Mit AVM hat die konversationelle KI eine Schwelle überschritten, an der das Medium selbst – Tonfall, Timing, Emotion – zu einem Teil der übermittelten Information wird und nicht nur ein Nebeneffekt ist. Ob dies zu tieferem Nutzerengagement oder neuen Formen der Manipulation führt, hängt davon ab, wie schnell die Schutzmechanismen mit der Technologie Schritt halten.