حالت پیشرفته صوتی OpenAI برای کاربران ChatGPT Plus عرضه شد

آغاز عرضه

OpenAI در ۳۰ ژوئیه ۲۰۲۴ عرضه حالت پیشرفته صوتی یا AVM را برای گروهی از مشترکان ChatGPT Plus شروع کرد. این ویژگی که اولین بار در رویداد رونمایی GPT-4o در ماه می نمایش داده شد، جایگزین حالت صوتی قبلی می‌شود که از سه مدل مجزا (تبدیل گفتار به متن، مدل زبانی و تبدیل متن به گفتار) استفاده می‌کرد. حالا AVM با یک Pipeline چندحالته، مستقیماً pitch، ریتم و تُن صدا را پردازش می‌کند و می‌تواند بدون نیاز به متن میانی بخندد، زمزمه کند یا هیجان نشان دهد. عرضه اولیه فقط برای تعداد محدودی از کاربران Plus است و عرضه گسترده‌تر برای پاییز ۲۰۲۴ برنامه‌ریزی شده.

پیشرفت فنی پشت حالت پیشرفته صوتی

برخلاف حالت صوتی قبلی که تأخیر متوسط حدود ۲٫۸ ثانیه در هر رفت‌وبرگشت داشت، AVM مکالمه صوتی end-to-end را در کمتر از ۳۲۰ میلی‌ثانیه انجام می‌دهد—قابل مقایسه با زمان چرخش گفتگوی انسانی. OpenAI این کار را با تغذیه صدای خام به لایه‌های attention چندحالته GPT-4o انجام می‌دهد و از گلوگاه transcription عبور می‌کند. این مدل قطع صحبت را هم طبیعی مدیریت می‌کند: اگر کاربر بگوید «صبر کن بذار دوباره فکر کنم»، هوش مصنوعی حرفش را نیمه‌کاره رها کرده و گوش می‌دهد. این نیازمند آموزش مجدد پارامترهای decay مدل بود تا گفتار کاربر کوتاه نشود.

جزئیات فنی دیگر، ادغام یک non-verbal event detector است. وقتی کاربر سرفه، آه یا خنده می‌کند، مدل تصمیم می‌گیرد آن را تأیید کند یا جریان را ادامه دهد—بسته به زمینه. در بنچمارک‌های داخلی، AVM نشانه‌های احساسی مثل ناامیدی یا تردید را در ۸۷٪ موارد به درستی شناسایی کرد، در حالی که Pipeline متنی قبلی فقط ۵۲٪ موفق بود. با این حال، مدل هنوز به یک ماژول جداگانه تشخیص فعالیت صوتی (voice activity detection) وابسته است تا تشخیص دهد کاربر کی صحبتش تمام شده، که گاهی در محیط‌های پر سر و صدا خطاهای کاذب ایجاد می‌کند.

عرضه و در دسترس بودن

حالت پیشرفته صوتی ابتدا فقط برای مشترکان ChatGPT Plus در ایالات متحده در دسترس است که ماهانه ۲۰ دلار پرداخت می‌کنند. OpenAI برنامه دارد در سه‌ماهه چهارم ۲۰۲۴ به ردیف‌های Team و Enterprise و در اوایل ۲۰۲۵ به ردیف Educational گسترش دهد. کاربران رایگان اصلاً به حالت صوتی دسترسی نخواهند داشت، چون حاشیه سود شرکت در هزینه‌های inference برای صوت بسیار کمتر از متن است. OpenAI تخمین می‌زند پردازش یک دقیقه مکالمه صوتی تعاملی حدود هشت برابر بیشتر از تولید ۴۰۰۰ توکن متن هزینه دارد.

برای مدیریت بار سرور، شرکت استفاده را به «محدودیت روزانه» حدود ۳۰ دقیقه مکالمه صوتی فعال برای هر کاربر در روز محدود کرده است. این سقف ممکن است با بهبود效率 سخت‌افزار تغییر کند. OpenAI همچنین پنج گزینه صدای جدید—Breeze، Cove، Ember، Juniper و Vale—را علاوه بر صداهای قبلی Sky، Breeze و Cove عرضه می‌کند. هر صدا بر اساس صدای یک بازیگر خاص با قراردادهای مجوز آموزش دیده است.

مقایسه با ویژگی‌های صوتی قبلی

حالت صوتی قبلی که در سپتامبر ۲۰۲۳ راه‌اندازی شد، از Whisper برای تبدیل گفتار به متن، GPT-4 (یا GPT-3.5) برای تولید پاسخ و یک مدل متن‌به‌گفتار داخلی مبتنی بر TorToiSe استفاده می‌کرد. آن Pipeline وقتی کاربر می‌خواست در یک بحث داغ سؤالات بعدی بپرسد، به مشکل می‌خورد: جریان مکالمه ناهموار بود چون کل transcript باید بعد از هر رفت‌وبرگشت صوتی دوباره به مدل زبانی ارسال می‌شد. AVM این مشکل را با استریم مستقیم صدا به decoder autoregressive GPT-4o حل می‌کند و به مدل اجازه می‌دهد یک نخ coherent را در مکالمات صوتی چندمرحله‌ای بدون حواس‌پرتی حفظ کند.

Siri اپل و Alexa آمازون به معماری‌های cascade مشابه (صدا به متن، NLU، متن به گفتار) متکی هستند و تأخیر نزدیک به ۸۰۰ میلی‌ثانیه تا ۱٫۵ ثانیه دارند. Gemini Live گوگل که در می ۲۰۲۴ معرفی شد، یک حالت صوتی چندحالته را وعده می‌دهد، اما تا زمان نگارش این متن هنوز در beta محدود است و از قطع صحبت real-time پشتیبانی نمی‌کند. OpenAI ادعا می‌کند AVM اولین هوش مصنوعی صوتی تجاری است که می‌تواند دامنه احساسات را بدون intent‌های اسکریپت‌شده شبیه‌سازی کند.

ایمنی و محدودیت‌ها

OpenAI اقدامات ایمنی متعددی مختص حالت پیشرفته صوتی پیاده‌سازی کرده است. سیستم از یک «voice mimicry classifier» جداگانه استفاده می‌کند که هر تلاش برای جعل هویت یک شخص خاص—مثلاً تولید صدایی شبیه به تُن کاربر برای فیشینگ—را تشخیص و مسدود می‌کند. مدل همچنین از تولید صداهای «حساس» مثل آژیر، گریه نوزاد یا صداهای جنسی منع شده است. در تست‌های red-teaming داخلی، این classifier ۹۲٪ تلاش‌های جعل هویت را متوقف کرد، اما سه مورد مرزی در آزمایش‌های اولیه باعث شد مدل پس از ۷ ثانیه صدای بی‌وقفه کاربر را تقلید کند.

علاوه بر این، OpenAI یک واترمارک به تمام خروجی‌های صوتی اضافه کرده است که یک امضای دیجیتال منحصربه‌فرد برای ردیابی یک جلسه کاربر خاص ایجاد می‌کند. این واترمارک برای انسان نامحسوس اما با ابزار forensics شرکت قابل خواندن است. شرکت همچنین این ویژگی را از استفاده در زمینه‌های اضطراری محدود کرده: اگر کاربر بگوید «دارم سکته می‌کنم»، مدل آموزش دیده پاسخ دهد «من پزشک نیستم، لطفاً با ۹۱۱ تماس بگیرید» نه اینکه دستورالعمل بدهد.

موارد استفاده و پیامدها

تست‌کنندگان اولیه از AVM برای آموزش زبان—تصحیح تلفظ و ریتم در زمان واقعی—و برای تأمل درمانی استفاده کرده‌اند، جایی که مدل لحن خود را با حالت احساسی کاربر تطبیق می‌دهد. برخی توسعه‌دهندگان در حال بررسی AVM به عنوان جایگزینی برای سیستم‌های پاسخگوی صوتی تعاملی در پشتیبانی مشتری هستند، اما شرایط API فعلی OpenAI فروش مجدد حالت صوتی را به عنوان محصول مستقل ممنوع می‌کند. این ویژگی همچنین سؤالات حریم خصوصی را مطرح می‌کند: تمام کلیپ‌های صوتی به طور موقت روی سرورهای OpenAI برای بهبود مدل ذخیره می‌شوند، مگر اینکه کاربر در تنظیمات انصراف دهد. سیاست حریم خصوصی شرکت اشاره می‌کند که ضبط‌های صوتی ممکن است توسط انسانی بازبینی شوند، اما فقط پس از حذف اطلاعات قابل شناسایی شخصی.

با AVM، هوش مصنوعی مکالمه از آستانه‌ای عبور کرده است که رسانه خود—لحن، زمان‌بندی، احساس—به بخشی از اطلاعات منتقل‌شده تبدیل می‌شود، نه یک عارضه جانبی. این که آیا به تعامل عمیق‌تر کاربر منجر می‌شود یا اشکال جدید دستکاری، بستگی به سرعت evolution محدودیت‌ها در کنار فناوری دارد.