شخصیت‌های بازی که واقعاً فکر می‌کنند: چگونه LLM‌ها دیالوگ NPCها را دگرگون می‌کنند

هر بازیکنی که ساعتی را در یک RPG جهان‌باز گذرانده باشد، آن لحظهٔ شکست‌دهندهٔ غوطه‌وری را تجربه کرده است: از NPC چیزی کمی خارج از اسکریپت می‌پرسید و او با همان جملهٔ از پیش نوشته‌شده‌ای پاسخ می‌دهد که به هر سؤالی در آن حوزه موضوعی می‌دهد. آهنگر که تازه حمله‌ای اژدها را دیده است، در صورت کلیک روی گزینهٔ دیالوگ اشتباه، باز هم سخنرانی قیمت‌گذاری آهنگری خود را ارائه می‌دهد. نگهبانی که نام شما را از برخورد قبلی می‌داند، در یک گفتگوی تازه آن را کاملاً فراموش کرده است. این‌ها اشکال نیستند – آنها نتیجهٔ اجتناب‌ناپذیر درخت‌های دیالوگ اسکریپت‌شده هستند و به مدت ۳۰ سال تعامل NPC در بازی‌های ویدیویی را تعریف کرده‌اند.

این وضعیت در حال تغییر است و این تغییر سریع‌تر از آن چیزی است که بیشتر بازیکنان تصور می‌کنند.

Inworld، Convai و Ubisoft واقعاً چه می‌سازند

چندین شرکت و استودیو اکنون LLMها را مستقیماً در موتورهای بازی جاسازی می‌کنند تا دیالوگ NPCها را تأمین کنند. رویکرد متفاوت است، اما معماری اصلی مشابه است: هر NPC دارای یک system prompt است که شخصیت، پیشینه، محدودیت‌های دانش، تاریخچهٔ روابط و اهداف رفتاری او را تعریف می‌کند. ورودی‌های بازیکن به LLM می‌روند و LLM پاسخ‌هایی در نقش شخصیت تولید می‌کند. پاسخ‌ها سپس برای سیاست محتوا و سازگاری گیم‌پلی فیلتر می‌شوند و تحویل داده می‌شوند – معمولاً به صورت متنی که به یک سیستم سنتز صدا برای دیالوگ گفتاری ارسال می‌شود.

Inworld AI که با Unreal Engine و Unity ادغام دارد، مطالعات موردی منتشر کرده است که نشان می‌دهد NPCها در طول ده‌ها نوبت گفتگو، انسجام مکالمه را حفظ می‌کنند، اقدامات بازیکن از اوایل جلسه را به خاطر می‌سپارند و لحن خود را بر اساس رابطه‌ای که بازیکن با آنها ساخته است، تطبیق می‌دهند. NPCای که به بازیکن اعتماد ندارد، محتاط خواهد بود؛ NPCای که کمک شده است، گرم‌تر رفتار می‌کند. این یک مکانیک جدید نیست – سیستم‌های شهرت سال‌ها وجود داشته‌اند – اما بیان آن رابطه از طریق زبان طبیعی از نظر کیفی با جابه‌جایی بین شاخه‌های دیالوگ «دوستانه» و «غیردوستانه» متفاوت است.

پروژه NEO NPCs یوبیسافت که در GDC 2024 نمایش داده شد و از آن زمان پیشرفت کرده است، از LLMها در ترکیب با یک دانش‌نامه (knowledge graph) استفاده می‌کند که نشان می‌دهد هر NPC چه چیزی در مورد دنیای بازی می‌داند. شخصیت‌ها می‌توانند به سؤالات مربوط به مکان‌ها، شخصیت‌های دیگر و رویدادهای اخیر پاسخ دهند – اما تنها در صورتی که پروفایل شخصیتی آنها به آن اطلاعات دسترسی داشته باشد. یک می‌خانه‌دار شایعات شهر را می‌داند؛ یک گوشه‌نشین جنگلی نمی‌داند. دانش‌نامه از افشای تصادفی اطلاعاتی که شخصیت نباید داشته باشد جلوگیری می‌کند – مشکلی که LLMهای کنترل‌نشده به‌طور قابل اعتمادی ایجاد می‌کنند.

مسئله حافظه

پنجره‌های زمینه (context windows) محدودیت اساسی هستند. یک پنجره زمینه استاندارد LLM می‌تواند تاریخچهٔ یک مکالمه معنی‌دار را در خود نگه دارد، اما نه تمام رابطهٔ بازیکن با یک NPC را در طول ده‌ها ساعت گیم‌پلی. وقتی زمینه پر می‌شود، خاطرات قدیمی‌تر حذف می‌شوند و شخصیت‌ها چیزهایی را که باید بدانند فراموش می‌کنند.

چندین رویکرد به این موضوع می‌پردازند. سیستم‌های RAG (تولید با بازیابی افزوده) خاطرات NPC را در یک پایگاه داده برداری ذخیره می‌کنند و بر اساس زمینه مکالمهٔ فعلی، خاطرات مرتبط را بازیابی می‌کنند. وقتی بازیکن به مأموریتی اشاره می‌کند که سه جلسه پیش کامل کرده است، سیستم RAG خاطرهٔ مربوطه را می‌کشد و به prompt تزریق می‌کند. این به NPCها عملاً حافظه بلندمدت نامحدودی می‌دهد که تنها با آنچه به‌درستی ذخیره و بازیابی می‌شود، محدود می‌گردد.

رویکردهای دیگر از طرح‌واره‌های حافظهٔ ساختاریافته استفاده می‌کنند: به جای ذخیرهٔ متن خام مکالمه، رویدادهای کلیدی استخراج و به‌عنوان حقایق ساختاریافته ذخیره می‌شوند («بازیکن به شخصیت کمک کرد در روز ۱۴ از زندان فرار کند»، «بازیکن هرگز با شخصیتrude نبوده است»، «بازیکن مأموریت شخصیت را کامل نکرده است»). این خاطرات ساختاریافته با قابلیت اطمینان بیشتری بازیابی می‌شوند و نسبت به متن خام کمتر مبهم هستند، اما به بهای از دست دادن برخی تفاوت‌های ظریف.

مسئله صدا

پاسخ‌های متنی NPC کارآمد اما یکنواخت هستند. بازیکنان در بازی‌های صداگذاری‌شده انتظار دیالوگ گفتاری دارند و تولید متن در زمان واقعی تنها نیمی از راه‌حل است. سنتز صدای بلادرنگ به‌طور چشمگیری بهبود یافته است – ElevenLabs، PlayHT و دیگران تولید صدای با تأخیر کم ارائه می‌دهند که می‌تواند گفتار سنتز شده را در عرض ۲۰۰-۴۰۰ میلی‌ثانیه پس از دریافت متن تحویل دهد – اما خروجی همچنان فاقد ظرافت اجرا (performance nuance) بازیگران حرفه‌ای صدا است. صداهای تولیدشده می‌توانند کمی رباتیک به نظر برسند، به‌ویژه در لحظات احساسی.

برخی استودیوها رویکردهای ترکیبی را بررسی می‌کنند: کتابخانه‌ای از صداهای احساسی از پیش ضبط‌شده («تعجب»، «ترس»، «شادی»، «طعنه») همراه با گفتار سنتز شده برای محتوا. رنگ‌آمیزی احساسی از اجراهای ضبط‌شده می‌آید؛ کلمات خاص از سنتز. نتایج اولیه نشان می‌دهد که این برای لحظات بسیار احساسی طبیعی‌تر از سنتز خالص است.

چه چیزی کار می‌کند و چه چیزی کار نمی‌کند

تجربه عملی از بازی‌های منتشرشده و در حال توسعه الگوهای واضحی را نشان می‌دهد که در آن NPCهای مبتنی بر LLM خوب عمل می‌کنند و در کجا شکست می‌خورند.

خوب عمل می‌کند:

مکالمهٔ محیطی – NPCهایی که دربارهٔ لور (lore)، رویدادهای شهر و زندگی روزمره خود بحث می‌کنند. ریسک کم، غوطه‌وری بالا.
ارسال اطلاعات – NPCهایی که مسیر می‌دهند، زمینهٔ مأموریت را توضیح می‌دهند یا دانش جهان را ارائه می‌کنند. LLMها در ترکیب و ارائهٔ طبیعی اطلاعات عالی هستند.
ایجاد رابطه – NPCهایی که به لحن و تاریخچهٔ بازیکن پاسخ می‌دهند و روابط متمایزی با بازیکنانی که متفاوت با آنها تعامل دارند، ایجاد می‌کنند.
مدیریت شگفتی – وقتی بازیکنان کارهای غیرمنتظره انجام می‌دهند، NPCهای LLM می‌توانند به‌صورت منسجم پاسخ دهند و به جای شکست غوطه‌وری با یک پاسخ پیش‌فرض «نمی‌فهمم»، از آن جلوگیری کنند.

خوب عمل نمی‌کند:

دیالوگ مسیر بحرانی – نقاط داستانی که باید اطلاعات خاصی را تحویل دهند یا وضعیت‌های خاص بازی را فعال کنند. LLMها احتمالی هستند و ممکن است اطلاعات کلیدی را حذف کنند یا به‌طور ناسازگار تحویل دهند.
مبارزه و تعامل بلادرنگ – نیازمندی‌های تأخیر برای مبارزه با سرعت استنتاج فعلی LLM ناسازگار است؛ سیستم‌های از پیش اسکریپت‌شده همچنان ضروری هستند.
شخصیت‌های کاملاً باز – بدون محدودیت‌های دقیق دانش‌نامه، LLMها باعث می‌شوند NPCها اطلاعاتی را که نباید بدانند فاش کنند، سازگاری شخصیت را بشکنند یا پاسخ‌های ناسازگار با منطق درونی جهان بازی تولید کنند.

مسئله هزینه

استنتاج LLM رایگان نیست. یک بازی با ۲۰۰ NPC نام‌دار که هر کدام ممکن است هزاران مکالمه با بازیکنان داشته باشند، در صورت اجرا بر روی سرویس‌های تجاری LLM، هزینه‌های API قابل توجهی ایجاد می‌کند. بیشتر استقرارهای جدی تولیدی در حال بررسی مدل‌های کوچک‌تر محلی هستند: مدل‌های ۷B-13B پارامتری که برای اجرا بر روی GPUهای مصرف‌کنندهٔ بازی کوانتیزه شده‌اند، به پروفایل‌های تأخیر و هزینه‌ای دست می‌یابند که با استقرار تجاری بازی سازگار است. شکاف کیفیت نسبت به مدل‌های مرزی واقعی است اما در حال کاهش است و برای NPCهایی با شخصیت‌ها و محدودیت‌های دانش خوب تعریف‌شده، مدل‌های کوچک‌تر به‌طور شگفت‌آوری خوب عمل می‌کنند.

بازی‌هایی که این تعادل هزینه و کیفیت را پیدا کنند، دوران بعدی طراحی NPC را تعریف خواهند کرد. درخت‌های دیالوگ اسکریپت‌شده ناپدید نخواهند شد – آنها همچنان ابزار مناسبی برای لحظات داستانی بحرانی و عناوین با منابع محدود هستند. اما برای بازی‌های جهان‌باز که غوطه‌وری و عاملیت بازیکن ارزش اصلی هستند، NPCهای مبتنی بر LLM یک تغییر گام در حس و حال داستان‌سرایی تعاملی به شمار می‌روند. شخصیت‌هایی که شما را به یاد می‌آورند، به انتخاب‌هایتان پاسخ می‌دهند و به طور طبیعی به غیرمنتظره واکنش نشان می‌دهند، دیگر یک کنجکاوی پیگیرنده فناوری نیستند. آنها اکنون در خطوط تولید هستند.