حالت پیشرفته صوتی OpenAI برای کاربران ChatGPT Plus عرضه شد

آغاز عرضه
OpenAI در ۳۰ ژوئیه ۲۰۲۴ عرضه حالت پیشرفته صوتی یا AVM را برای گروهی از مشترکان ChatGPT Plus شروع کرد. این ویژگی که اولین بار در رویداد رونمایی GPT-4o در ماه می نمایش داده شد، جایگزین حالت صوتی قبلی میشود که از سه مدل مجزا (تبدیل گفتار به متن، مدل زبانی و تبدیل متن به گفتار) استفاده میکرد. حالا AVM با یک Pipeline چندحالته، مستقیماً pitch، ریتم و تُن صدا را پردازش میکند و میتواند بدون نیاز به متن میانی بخندد، زمزمه کند یا هیجان نشان دهد. عرضه اولیه فقط برای تعداد محدودی از کاربران Plus است و عرضه گستردهتر برای پاییز ۲۰۲۴ برنامهریزی شده.
پیشرفت فنی پشت حالت پیشرفته صوتی
برخلاف حالت صوتی قبلی که تأخیر متوسط حدود ۲٫۸ ثانیه در هر رفتوبرگشت داشت، AVM مکالمه صوتی end-to-end را در کمتر از ۳۲۰ میلیثانیه انجام میدهد—قابل مقایسه با زمان چرخش گفتگوی انسانی. OpenAI این کار را با تغذیه صدای خام به لایههای attention چندحالته GPT-4o انجام میدهد و از گلوگاه transcription عبور میکند. این مدل قطع صحبت را هم طبیعی مدیریت میکند: اگر کاربر بگوید «صبر کن بذار دوباره فکر کنم»، هوش مصنوعی حرفش را نیمهکاره رها کرده و گوش میدهد. این نیازمند آموزش مجدد پارامترهای decay مدل بود تا گفتار کاربر کوتاه نشود.
جزئیات فنی دیگر، ادغام یک non-verbal event detector است. وقتی کاربر سرفه، آه یا خنده میکند، مدل تصمیم میگیرد آن را تأیید کند یا جریان را ادامه دهد—بسته به زمینه. در بنچمارکهای داخلی، AVM نشانههای احساسی مثل ناامیدی یا تردید را در ۸۷٪ موارد به درستی شناسایی کرد، در حالی که Pipeline متنی قبلی فقط ۵۲٪ موفق بود. با این حال، مدل هنوز به یک ماژول جداگانه تشخیص فعالیت صوتی (voice activity detection) وابسته است تا تشخیص دهد کاربر کی صحبتش تمام شده، که گاهی در محیطهای پر سر و صدا خطاهای کاذب ایجاد میکند.
عرضه و در دسترس بودن
حالت پیشرفته صوتی ابتدا فقط برای مشترکان ChatGPT Plus در ایالات متحده در دسترس است که ماهانه ۲۰ دلار پرداخت میکنند. OpenAI برنامه دارد در سهماهه چهارم ۲۰۲۴ به ردیفهای Team و Enterprise و در اوایل ۲۰۲۵ به ردیف Educational گسترش دهد. کاربران رایگان اصلاً به حالت صوتی دسترسی نخواهند داشت، چون حاشیه سود شرکت در هزینههای inference برای صوت بسیار کمتر از متن است. OpenAI تخمین میزند پردازش یک دقیقه مکالمه صوتی تعاملی حدود هشت برابر بیشتر از تولید ۴۰۰۰ توکن متن هزینه دارد.
برای مدیریت بار سرور، شرکت استفاده را به «محدودیت روزانه» حدود ۳۰ دقیقه مکالمه صوتی فعال برای هر کاربر در روز محدود کرده است. این سقف ممکن است با بهبود效率 سختافزار تغییر کند. OpenAI همچنین پنج گزینه صدای جدید—Breeze، Cove، Ember، Juniper و Vale—را علاوه بر صداهای قبلی Sky، Breeze و Cove عرضه میکند. هر صدا بر اساس صدای یک بازیگر خاص با قراردادهای مجوز آموزش دیده است.
مقایسه با ویژگیهای صوتی قبلی
حالت صوتی قبلی که در سپتامبر ۲۰۲۳ راهاندازی شد، از Whisper برای تبدیل گفتار به متن، GPT-4 (یا GPT-3.5) برای تولید پاسخ و یک مدل متنبهگفتار داخلی مبتنی بر TorToiSe استفاده میکرد. آن Pipeline وقتی کاربر میخواست در یک بحث داغ سؤالات بعدی بپرسد، به مشکل میخورد: جریان مکالمه ناهموار بود چون کل transcript باید بعد از هر رفتوبرگشت صوتی دوباره به مدل زبانی ارسال میشد. AVM این مشکل را با استریم مستقیم صدا به decoder autoregressive GPT-4o حل میکند و به مدل اجازه میدهد یک نخ coherent را در مکالمات صوتی چندمرحلهای بدون حواسپرتی حفظ کند.
Siri اپل و Alexa آمازون به معماریهای cascade مشابه (صدا به متن، NLU، متن به گفتار) متکی هستند و تأخیر نزدیک به ۸۰۰ میلیثانیه تا ۱٫۵ ثانیه دارند. Gemini Live گوگل که در می ۲۰۲۴ معرفی شد، یک حالت صوتی چندحالته را وعده میدهد، اما تا زمان نگارش این متن هنوز در beta محدود است و از قطع صحبت real-time پشتیبانی نمیکند. OpenAI ادعا میکند AVM اولین هوش مصنوعی صوتی تجاری است که میتواند دامنه احساسات را بدون intentهای اسکریپتشده شبیهسازی کند.
ایمنی و محدودیتها
OpenAI اقدامات ایمنی متعددی مختص حالت پیشرفته صوتی پیادهسازی کرده است. سیستم از یک «voice mimicry classifier» جداگانه استفاده میکند که هر تلاش برای جعل هویت یک شخص خاص—مثلاً تولید صدایی شبیه به تُن کاربر برای فیشینگ—را تشخیص و مسدود میکند. مدل همچنین از تولید صداهای «حساس» مثل آژیر، گریه نوزاد یا صداهای جنسی منع شده است. در تستهای red-teaming داخلی، این classifier ۹۲٪ تلاشهای جعل هویت را متوقف کرد، اما سه مورد مرزی در آزمایشهای اولیه باعث شد مدل پس از ۷ ثانیه صدای بیوقفه کاربر را تقلید کند.
علاوه بر این، OpenAI یک واترمارک به تمام خروجیهای صوتی اضافه کرده است که یک امضای دیجیتال منحصربهفرد برای ردیابی یک جلسه کاربر خاص ایجاد میکند. این واترمارک برای انسان نامحسوس اما با ابزار forensics شرکت قابل خواندن است. شرکت همچنین این ویژگی را از استفاده در زمینههای اضطراری محدود کرده: اگر کاربر بگوید «دارم سکته میکنم»، مدل آموزش دیده پاسخ دهد «من پزشک نیستم، لطفاً با ۹۱۱ تماس بگیرید» نه اینکه دستورالعمل بدهد.
موارد استفاده و پیامدها
تستکنندگان اولیه از AVM برای آموزش زبان—تصحیح تلفظ و ریتم در زمان واقعی—و برای تأمل درمانی استفاده کردهاند، جایی که مدل لحن خود را با حالت احساسی کاربر تطبیق میدهد. برخی توسعهدهندگان در حال بررسی AVM به عنوان جایگزینی برای سیستمهای پاسخگوی صوتی تعاملی در پشتیبانی مشتری هستند، اما شرایط API فعلی OpenAI فروش مجدد حالت صوتی را به عنوان محصول مستقل ممنوع میکند. این ویژگی همچنین سؤالات حریم خصوصی را مطرح میکند: تمام کلیپهای صوتی به طور موقت روی سرورهای OpenAI برای بهبود مدل ذخیره میشوند، مگر اینکه کاربر در تنظیمات انصراف دهد. سیاست حریم خصوصی شرکت اشاره میکند که ضبطهای صوتی ممکن است توسط انسانی بازبینی شوند، اما فقط پس از حذف اطلاعات قابل شناسایی شخصی.
با AVM، هوش مصنوعی مکالمه از آستانهای عبور کرده است که رسانه خود—لحن، زمانبندی، احساس—به بخشی از اطلاعات منتقلشده تبدیل میشود، نه یک عارضه جانبی. این که آیا به تعامل عمیقتر کاربر منجر میشود یا اشکال جدید دستکاری، بستگی به سرعت evolution محدودیتها در کنار فناوری دارد.