OpenAI تطلق 'Advanced Voice Mode' لمشتركي ChatGPT Plus

بدء الطرح

في 30 يوليو 2024، بدأت OpenAI في طرح 'Advanced Voice Mode' (AVM) لمجموعة فرعية من مشتركي ChatGPT Plus. هذه الميزة، التي تم عرضها لأول مرة خلال حدث إطلاق GPT-4o في مايو، تحل محل وضع الصوت السابق الذي اعتمد على ثلاثة نماذج منفصلة - نموذج تحويل الكلام إلى نص، ونموذج لغة، ونموذج تحويل نص إلى كلام - باستخدام Pipeline متعدد الوسائط واحد. يستطيع AVM معالجة درجة الصوت والإيقاع والنبرة مباشرة، مما يمكنه من الضحك أو الهمس أو التعبير عن الإثارة دون وساطة نصية. الطرح الأولي محدود لعدد صغير من مستخدمي Plus، مع طرح أوسع مجدول لخريف 2024.

القفزة التقنية وراء Advanced Voice Mode

على عكس وضع الصوت السابق، الذي كان متوسط زمن الاستجابة فيه حوالي 2.8 ثانية لكل رحلة ذهاب وعودة، يحقق AVM تفاعلًا صوتيًا من طرف إلى طرف في أقل من 320 مللي ثانية - وهو ما يشبه تبادل الأدوار في المحادثة البشرية. تحقق OpenAI ذلك عن طريق إدخال الصوت الخام مباشرة في طبقات الانتباه متعددة الوسائط في GPT-4o، متجاوزة عنق الزجاجة للنسخ. كما يتعامل النموذج مع المقاطعات بشكل طبيعي: إذا قال المستخدم 'انتظر، دعني أعيد التفكير'، يتوقف الذكاء الاصطناعي في منتصف الجملة ويستمع. تطلب ذلك إعادة تدريب معاملات التلاشي في النموذج لتجنب اقتطاع كلام المستخدم.

تفصيل تقني آخر هو دمج كاشف للأحداث غير اللفظية. عندما يسعل المستخدم أو يتنهد أو يضحك، يمكن للنموذج أن يقرر ما إذا كان سيعترف بذلك أم يواصل التدفق، بناءً على السياق. في Benchmark الداخلية، حدد AVM الإشارات العاطفية مثل الإحباط أو التردد بشكل صحيح بنسبة 87%، مقابل 52% في Pipeline النصي السابق. ومع ذلك، لا يزال النموذج يعتمد على وحدة كشف النشاط الصوتي المنفصلة لتحديد متى انتهى المستخدم من الكلام، مما قد يؤدي إلى نتائج إيجابية خاطئة في البيئات المزعجة.

الطرح والتوفر

يتوفر Advanced Voice Mode في البداية فقط لمشتركي ChatGPT Plus في الولايات المتحدة، الذين يدفعون 20 دولارًا شهريًا. تخطط OpenAI للتوسع إلى فئتي Team وEnterprise في وقت لاحق من الربع الرابع من 2024، مع طرح تعليمي يتبع في بداية 2025. لن يحصل المستخدمون على الخطة المجانية على وضع الصوت على الإطلاق، لأن هوامش الربح للشركة على تكاليف الاستدلال للصوت أقل بكثير من النص. تقدر OpenAI أن معالجة دقيقة واحدة من المحادثة الصوتية التفاعلية تكلف حوالي ثمانية أضعاف تكلفة توليد 4000 Token من النص.

لإدارة حمل الخادم، قيدت الشركة الاستخدام إلى 'بدل يومي محدود' يبلغ حوالي 30 دقيقة من المحادثة الصوتية النشطة لكل مستخدم في اليوم. قد يتغير هذا الحد مع تحسن كفاءة أجهزة الاستدلال. تطرح OpenAI أيضًا خمسة خيارات صوتية جديدة - Breeze وCove وEmber وJuniper وVale - بالإضافة إلى الأصوات الحالية Sky وBreeze وCove. تم تدريب كل صوت على صوت ممثل منفصل مع اتفاقيات ترخيص.

مقارنة مع ميزات الصوت السابقة

وضع الصوت السابق، الذي أُطلق في سبتمبر 2023، استخدم Whisper لتحويل الكلام إلى نص، وGPT-4 (أو GPT-3.5) لتوليد الردود، ونموذج تحويل نص إلى كلام داخلي يعتمد على TorToiSe. كان هذا Pipeline ينهار عندما أراد المستخدمون طرح أسئلة متابعة في نقاش حاد: كان تدفق المحادثة متعثرًا لأن النص الكامل كان يجب إعادة إرساله إلى نموذج اللغة بعد كل جولة صوتية. يلغي AVM ذلك عن طريق دفق الصوت مباشرة إلى مفكك الترميز التلقائي التوليدي في GPT-4o، مما يسمح للنموذج بالحفاظ على خيط متماسك عبر تفاعلات صوتية متعددة دون استطرادات مرئية.

تعتمد Siri من Apple وAlexa من Amazon على هياكل متسلسلة مماثلة - صوت إلى نص، NLU، نص إلى صوت - ولديها زمن استجابة أقرب إلى 800 مللي ثانية إلى 1.5 ثانية لكل دور. Gemini Live من Google، الذي أُعلن عنه في مايو 2024، يعد أيضًا بوضع صوتي متعدد الوسائط، ولكن حتى وقت كتابة هذا التقرير لا يزال في Beta محدود ولا يدعم معالجة المقاطعات في الوقت الفعلي. تدعي OpenAI أن AVM هو أول ذكاء صوتي يُنشر تجاريًا يمكنه محاكاة النطاق العاطفي دون نصوص مقصودة صريحة.

الأمان والضوابط

طبقت OpenAI عدة إجراءات أمان خاصة بـ Advanced Voice Mode. يستخدم النظام 'مصنف محاكاة الصوت' المنفصل الذي يكتشف ويمنع أي محاولة لانتحال شخصية شخص معين - على سبيل المثال، إنتاج صوت يطابق جرس المستخدم نفسه للتصيد. يُحظر على النموذج أيضًا توليد أصوات 'حساسة' مثل صفارات الإنذار أو بكاء الأطفال أو الأصوات الجنسية. أثناء الاختبارات الداخلية (red-teaming)، أوقف المصنف 92% من محاولات الانتحال، ولكن ثلاث حالات حافة أثناء الاختبار المبكر سمحت للنموذج بتقليد المستخدم بعد سبع ثوانٍ متواصلة من الإدخال الصوتي.

بالإضافة إلى ذلك، أضافت OpenAI علامة مائية إلى جميع مخرجات الصوت المولدة، مضمنة توقيعًا رقميًا فريدًا يمكن تتبعه لاحقًا إلى جلسة مستخدم محددة. هذه العلامة المائية غير محسوسة للبشر ولكن يمكن قراءتها بواسطة أداة الطب الشرعي للشركة. كما قيدت الشركة الميزة من استخدامها في سياقات الطوارئ: إذا قال المستخدم 'أنا أعاني من نوبة قلبية'، يتم تدريب النموذج على الرد 'أنا لست محترفًا طبيًا؛ يرجى الاتصال بـ 911' بدلاً من تقديم تعليمات.

حالات الاستخدام المحتملة والآثار

استخدم المختبرون الأوائل AVM لتعليم اللغات - تصحيح النطق والإيقاع في الوقت الفعلي - وللتأمل العلاجي، حيث يضبط النموذج نبرته لتتناسب مع الحالة العاطفية للمستخدم. يستكشف بعض المطورين AVM كبديل لأنظمة الرد الصوتي التفاعلي في دعم العملاء، لكن شروط API الحالية لـ OpenAI تحظر إعادة بيع وضع الصوت كمنتج مستقل. كما تثير الميزة أسئلة حول الخصوصية: يتم تخزين جميع المقاطع الصوتية مؤقتًا على خوادم OpenAI لتحسين النموذج ما لم يختار المستخدم إلغاء الاشتراك في الإعدادات. تشير سياسة الخصوصية للشركة إلى أنه قد تتم مراجعة التسجيلات الصوتية بواسطة معلقين بشريين ولكن فقط بعد إزالة المعلومات الشخصية.

مع AVM، عبر الذكاء الاصطناعي المحادثي عتبة حيث أصبحت الوسيلة نفسها - النبرة والتوقيت والعاطفة - جزءًا من المعلومات المنقولة بدلاً من أن تكون أثرًا جانبيًا. ما إذا كان ذلك سيؤدي إلى تفاعل أعمق للمستخدمين أو أشكال جديدة من التلاعب يعتمد على مدى سرعة تطور الضوابط بالتزامن مع التكنولوجيا.