شخصیتهای بازی که واقعاً فکر میکنند: چگونه LLMها دیالوگ NPCها را دگرگون میکنند

هر بازیکنی که ساعتی را در یک RPG جهانباز گذرانده باشد، آن لحظهٔ شکستدهندهٔ غوطهوری را تجربه کرده است: از NPC چیزی کمی خارج از اسکریپت میپرسید و او با همان جملهٔ از پیش نوشتهشدهای پاسخ میدهد که به هر سؤالی در آن حوزه موضوعی میدهد. آهنگر که تازه حملهای اژدها را دیده است، در صورت کلیک روی گزینهٔ دیالوگ اشتباه، باز هم سخنرانی قیمتگذاری آهنگری خود را ارائه میدهد. نگهبانی که نام شما را از برخورد قبلی میداند، در یک گفتگوی تازه آن را کاملاً فراموش کرده است. اینها اشکال نیستند – آنها نتیجهٔ اجتنابناپذیر درختهای دیالوگ اسکریپتشده هستند و به مدت ۳۰ سال تعامل NPC در بازیهای ویدیویی را تعریف کردهاند.
این وضعیت در حال تغییر است و این تغییر سریعتر از آن چیزی است که بیشتر بازیکنان تصور میکنند.
Inworld، Convai و Ubisoft واقعاً چه میسازند
چندین شرکت و استودیو اکنون LLMها را مستقیماً در موتورهای بازی جاسازی میکنند تا دیالوگ NPCها را تأمین کنند. رویکرد متفاوت است، اما معماری اصلی مشابه است: هر NPC دارای یک system prompt است که شخصیت، پیشینه، محدودیتهای دانش، تاریخچهٔ روابط و اهداف رفتاری او را تعریف میکند. ورودیهای بازیکن به LLM میروند و LLM پاسخهایی در نقش شخصیت تولید میکند. پاسخها سپس برای سیاست محتوا و سازگاری گیمپلی فیلتر میشوند و تحویل داده میشوند – معمولاً به صورت متنی که به یک سیستم سنتز صدا برای دیالوگ گفتاری ارسال میشود.
Inworld AI که با Unreal Engine و Unity ادغام دارد، مطالعات موردی منتشر کرده است که نشان میدهد NPCها در طول دهها نوبت گفتگو، انسجام مکالمه را حفظ میکنند، اقدامات بازیکن از اوایل جلسه را به خاطر میسپارند و لحن خود را بر اساس رابطهای که بازیکن با آنها ساخته است، تطبیق میدهند. NPCای که به بازیکن اعتماد ندارد، محتاط خواهد بود؛ NPCای که کمک شده است، گرمتر رفتار میکند. این یک مکانیک جدید نیست – سیستمهای شهرت سالها وجود داشتهاند – اما بیان آن رابطه از طریق زبان طبیعی از نظر کیفی با جابهجایی بین شاخههای دیالوگ «دوستانه» و «غیردوستانه» متفاوت است.
پروژه NEO NPCs یوبیسافت که در GDC 2024 نمایش داده شد و از آن زمان پیشرفت کرده است، از LLMها در ترکیب با یک دانشنامه (knowledge graph) استفاده میکند که نشان میدهد هر NPC چه چیزی در مورد دنیای بازی میداند. شخصیتها میتوانند به سؤالات مربوط به مکانها، شخصیتهای دیگر و رویدادهای اخیر پاسخ دهند – اما تنها در صورتی که پروفایل شخصیتی آنها به آن اطلاعات دسترسی داشته باشد. یک میخانهدار شایعات شهر را میداند؛ یک گوشهنشین جنگلی نمیداند. دانشنامه از افشای تصادفی اطلاعاتی که شخصیت نباید داشته باشد جلوگیری میکند – مشکلی که LLMهای کنترلنشده بهطور قابل اعتمادی ایجاد میکنند.
مسئله حافظه
پنجرههای زمینه (context windows) محدودیت اساسی هستند. یک پنجره زمینه استاندارد LLM میتواند تاریخچهٔ یک مکالمه معنیدار را در خود نگه دارد، اما نه تمام رابطهٔ بازیکن با یک NPC را در طول دهها ساعت گیمپلی. وقتی زمینه پر میشود، خاطرات قدیمیتر حذف میشوند و شخصیتها چیزهایی را که باید بدانند فراموش میکنند.
چندین رویکرد به این موضوع میپردازند. سیستمهای RAG (تولید با بازیابی افزوده) خاطرات NPC را در یک پایگاه داده برداری ذخیره میکنند و بر اساس زمینه مکالمهٔ فعلی، خاطرات مرتبط را بازیابی میکنند. وقتی بازیکن به مأموریتی اشاره میکند که سه جلسه پیش کامل کرده است، سیستم RAG خاطرهٔ مربوطه را میکشد و به prompt تزریق میکند. این به NPCها عملاً حافظه بلندمدت نامحدودی میدهد که تنها با آنچه بهدرستی ذخیره و بازیابی میشود، محدود میگردد.
رویکردهای دیگر از طرحوارههای حافظهٔ ساختاریافته استفاده میکنند: به جای ذخیرهٔ متن خام مکالمه، رویدادهای کلیدی استخراج و بهعنوان حقایق ساختاریافته ذخیره میشوند («بازیکن به شخصیت کمک کرد در روز ۱۴ از زندان فرار کند»، «بازیکن هرگز با شخصیتrude نبوده است»، «بازیکن مأموریت شخصیت را کامل نکرده است»). این خاطرات ساختاریافته با قابلیت اطمینان بیشتری بازیابی میشوند و نسبت به متن خام کمتر مبهم هستند، اما به بهای از دست دادن برخی تفاوتهای ظریف.
مسئله صدا
پاسخهای متنی NPC کارآمد اما یکنواخت هستند. بازیکنان در بازیهای صداگذاریشده انتظار دیالوگ گفتاری دارند و تولید متن در زمان واقعی تنها نیمی از راهحل است. سنتز صدای بلادرنگ بهطور چشمگیری بهبود یافته است – ElevenLabs، PlayHT و دیگران تولید صدای با تأخیر کم ارائه میدهند که میتواند گفتار سنتز شده را در عرض ۲۰۰-۴۰۰ میلیثانیه پس از دریافت متن تحویل دهد – اما خروجی همچنان فاقد ظرافت اجرا (performance nuance) بازیگران حرفهای صدا است. صداهای تولیدشده میتوانند کمی رباتیک به نظر برسند، بهویژه در لحظات احساسی.
برخی استودیوها رویکردهای ترکیبی را بررسی میکنند: کتابخانهای از صداهای احساسی از پیش ضبطشده («تعجب»، «ترس»، «شادی»، «طعنه») همراه با گفتار سنتز شده برای محتوا. رنگآمیزی احساسی از اجراهای ضبطشده میآید؛ کلمات خاص از سنتز. نتایج اولیه نشان میدهد که این برای لحظات بسیار احساسی طبیعیتر از سنتز خالص است.
چه چیزی کار میکند و چه چیزی کار نمیکند
تجربه عملی از بازیهای منتشرشده و در حال توسعه الگوهای واضحی را نشان میدهد که در آن NPCهای مبتنی بر LLM خوب عمل میکنند و در کجا شکست میخورند.
خوب عمل میکند:
- مکالمهٔ محیطی – NPCهایی که دربارهٔ لور (lore)، رویدادهای شهر و زندگی روزمره خود بحث میکنند. ریسک کم، غوطهوری بالا.
- ارسال اطلاعات – NPCهایی که مسیر میدهند، زمینهٔ مأموریت را توضیح میدهند یا دانش جهان را ارائه میکنند. LLMها در ترکیب و ارائهٔ طبیعی اطلاعات عالی هستند.
- ایجاد رابطه – NPCهایی که به لحن و تاریخچهٔ بازیکن پاسخ میدهند و روابط متمایزی با بازیکنانی که متفاوت با آنها تعامل دارند، ایجاد میکنند.
- مدیریت شگفتی – وقتی بازیکنان کارهای غیرمنتظره انجام میدهند، NPCهای LLM میتوانند بهصورت منسجم پاسخ دهند و به جای شکست غوطهوری با یک پاسخ پیشفرض «نمیفهمم»، از آن جلوگیری کنند.
خوب عمل نمیکند:
- دیالوگ مسیر بحرانی – نقاط داستانی که باید اطلاعات خاصی را تحویل دهند یا وضعیتهای خاص بازی را فعال کنند. LLMها احتمالی هستند و ممکن است اطلاعات کلیدی را حذف کنند یا بهطور ناسازگار تحویل دهند.
- مبارزه و تعامل بلادرنگ – نیازمندیهای تأخیر برای مبارزه با سرعت استنتاج فعلی LLM ناسازگار است؛ سیستمهای از پیش اسکریپتشده همچنان ضروری هستند.
- شخصیتهای کاملاً باز – بدون محدودیتهای دقیق دانشنامه، LLMها باعث میشوند NPCها اطلاعاتی را که نباید بدانند فاش کنند، سازگاری شخصیت را بشکنند یا پاسخهای ناسازگار با منطق درونی جهان بازی تولید کنند.
مسئله هزینه
استنتاج LLM رایگان نیست. یک بازی با ۲۰۰ NPC نامدار که هر کدام ممکن است هزاران مکالمه با بازیکنان داشته باشند، در صورت اجرا بر روی سرویسهای تجاری LLM، هزینههای API قابل توجهی ایجاد میکند. بیشتر استقرارهای جدی تولیدی در حال بررسی مدلهای کوچکتر محلی هستند: مدلهای ۷B-13B پارامتری که برای اجرا بر روی GPUهای مصرفکنندهٔ بازی کوانتیزه شدهاند، به پروفایلهای تأخیر و هزینهای دست مییابند که با استقرار تجاری بازی سازگار است. شکاف کیفیت نسبت به مدلهای مرزی واقعی است اما در حال کاهش است و برای NPCهایی با شخصیتها و محدودیتهای دانش خوب تعریفشده، مدلهای کوچکتر بهطور شگفتآوری خوب عمل میکنند.
بازیهایی که این تعادل هزینه و کیفیت را پیدا کنند، دوران بعدی طراحی NPC را تعریف خواهند کرد. درختهای دیالوگ اسکریپتشده ناپدید نخواهند شد – آنها همچنان ابزار مناسبی برای لحظات داستانی بحرانی و عناوین با منابع محدود هستند. اما برای بازیهای جهانباز که غوطهوری و عاملیت بازیکن ارزش اصلی هستند، NPCهای مبتنی بر LLM یک تغییر گام در حس و حال داستانسرایی تعاملی به شمار میروند. شخصیتهایی که شما را به یاد میآورند، به انتخابهایتان پاسخ میدهند و به طور طبیعی به غیرمنتظره واکنش نشان میدهند، دیگر یک کنجکاوی پیگیرنده فناوری نیستند. آنها اکنون در خطوط تولید هستند.