شخصيات لعبة تفكر فعلاً: كيف تُحدث LLMs تغييرًا في حوار NPCs

مشاركة:
شخصيات لعبة تفكر فعلاً: كيف تُحدث LLMs تغييرًا في حوار NPCs

كل لاعب أمضى وقتًا في لعبة RPG مفتوحة العالم قد اختبر لحظة كسر الانغماس: تسأل NPC شيئًا خارج النص قليلاً، فيرد بنفس الجملة المعدة مسبقًا التي يعطيها لأي سؤال في هذا الموضوع. الحداد الذي شهد للتو هجوم تنين سيظل يلقي خطابه حول أسعار الحدادة إذا نقرت على خيار الحوار الخاطئ. الحارس الذي يعرف اسمك من لقاء سابق قد نسيه تمامًا في محادثة جديدة. هذه ليست أخطاء - إنها النتيجة الحتمية لأشجار الحوار النصية، وقد حددت تفاعل NPC في ألعاب الفيديو لمدة 30 عامًا.

هذا يتغير، والتغيير يحدث أسرع مما يدركه معظم اللاعبين.

ما الذي تبنيه Inworld وConvai وUbisoft فعليًا

تقوم عدة شركات واستوديوهات الآن بدمج LLMs مباشرة في محركات الألعاب لتشغيل حوار NPC. يختلف النهج، لكن العمارة الأساسية متشابهة: كل NPC لديه system prompt يحدد شخصيته وخلفيته وقيود معرفته وتاريخ علاقته وأهدافه السلوكية. تذهب مدخلات اللاعب إلى LLM، الذي يولد استجابات تتماشى مع الشخصية. ثم يتم تصفية الاستجابات لسياسة المحتوى واتساق طريقة اللعب قبل تسليمها - عادةً كنص يتم إرساله إلى نظام تركيب الصوت للحوار المنطوق.

نشرت Inworld AI، التي لديها تكاملات مع Unreal Engine وUnity، دراسات حالة تظهر NPCs تحافظ على تماسك المحادثة عبر عشرات الأدوار، وتتذكر إجراءات اللاعب من وقت سابق في الجلسة، وتكيف نبرتها بناءً على العلاقة التي بنها اللاعب معها. NPC لا يثق باللاعب سيكون حذرًا؛ الشخص الذي تم مساعدته سيكون أكثر دفئًا. هذه ليست آلية جديدة - أنظمة السمعة موجودة منذ سنوات - لكن التعبير عن تلك العلاقة من خلال اللغة الطبيعية يختلف نوعيًا عن التبديل بين فرع حوار "ودي" و"غير ودي".

مشروع NEO NPCs من Ubisoft، الذي تم عرضه في GDC 2024 وتقدم منذ ذلك الحين، يستخدم LLMs مع knowledge graph يمثل ما يعرفه كل NPC عن عالم اللعبة. يمكن للشخصيات الإجابة عن أسئلة حول المواقع والشخصيات الأخرى والأحداث الأخيرة - ولكن فقط إذا كان ملف شخصيتهم يمنحهم الوصول إلى تلك المعلومات. يعرف صاحب الحانة ثرثرة البلدة؛ الناسك في الغابة لا يعرفها. يمنع knowledge graph NPCs من الكشف عن معلومات لا ينبغي لشخصيتهم معرفتها - مشكلة تنتجها LLMs غير المتحكم بها بشكل موثوق.

مشكلة الذاكرة

نوافذ السياق (context windows) هي القيد الأساسي. يمكن لنافذة سياق LLM قياسية الاحتفاظ بتاريخ محادثة ذي معنى، لكن ليس علاقة اللاعب بأكملها مع NPC عبر عشرات الساعات من اللعب. عندما يمتلئ السياق، تسقط الذكريات الأقدم، وتبدأ الشخصيات في نسيان أشياء كان ينبغي أن تعرفها.

تعالج عدة طرق هذا الأمر. تقوم أنظمة RAG (التوليد المعزز بالاسترجاع) بتخزين ذكريات NPC في قاعدة بيانات متجهة واسترجاع الذكريات ذات الصلة بناءً على سياق المحادثة الحالي. عندما يذكر اللاعب مهمة أكملها قبل ثلاث جلسات، يسحب نظام RAG الذاكرة ذات الصلة ويحقنها في الـ prompt. وهذا يمنح NPCs ذاكرة طويلة المدى غير محدودة فعليًا، مقيدة فقط بما يتم تخزينه واسترجاعه بدقة.

تستخدم طرق أخرى مخططات ذاكرة منظمة: بدلاً من تخزين نص المحادثة الخام، يتم استخراج الأحداث الرئيسية وتخزينها كحقائق منظمة ("ساعد اللاعب الشخصية على الهروب من السجن في اليوم 14"، "لم يكن اللاعب فظًا مع الشخصية أبدًا"، "لم يكمل اللاعب مهمة الشخصية"). هذه الذكريات المنظمة يتم استرجاعها بشكل أكثر موثوقية وأقل غموضًا من النص الخام، على حساب بعض الفروق الدقيقة.

مشكلة الصوت

استجابات NPC النصية عملية ولكنها مسطحة. يتوقع اللاعبون في الألعاب المدبلجة حوارًا منطوقًا، وتوليد النص في الوقت الفعلي هو نصف الحل فقط. تحسن تركيب الصوت في الوقت الفعلي بشكل كبير - تقدم ElevenLabs وPlayHT وغيرها توليد صوت منخفض الكمون يمكنه تقديم كلام مركب في غضون 200-400 مللي ثانية من استلام النص - لكن المخرجات لا تزال تفتقر إلى الفروق الدقيقة في الأداء التي يتمتع بها ممثلو الصوت المحترفون. يمكن أن تبدو الأصوات المولدة روبوتية قليلاً، خاصة في اللحظات العاطفية.

تستكشف بعض الاستوديوهات طرقًا هجينة: مكتبة من التعابير الصوتية العاطفية المسجلة مسبقًا ("مفاجأة"، "خوف"، "فرح"، "سخرية") مع كلام مركب للمحتوى. يأتي التلوين العاطفي من العروض المسجلة؛ الكلمات المحددة من التركيب. تشير النتائج المبكرة إلى أن هذا يبدو أكثر طبيعية من التركيب الخالص في اللحظات العاطفية العالية.

ما يعمل وما لا يعمل

تكشف التجربة العملية من الألعاب التي تم إصدارها والتي قيد التطوير عن أنماط واضحة حول أين تعمل NPCs المعتمدة على LLM بشكل جيد وأين تفشل.

يعمل بشكل جيد:

  • المحادثة المحيطة - NPCs تناقش الأساطير وأحداث البلدة وحياتهم اليومية. مخاطر منخفضة، فائدة غامرة عالية.
  • تقديم المعلومات - NPCs تعطي الاتجاهات، وتشرح سياق المهمة، أو توفر المعرفة بالعالم. LLMs ممتازة في تجميع المعلومات وتقديمها بشكل طبيعي.
  • بناء العلاقات - NPCs تستجيب لنبرة اللاعب وتاريخه، وتطور علاقات متميزة مع اللاعبين الذين يتفاعلون معهم بشكل مختلف.
  • معالجة المفاجآت - عندما يفعل اللاعبون أشياء غير متوقعة، يمكن لـ NPCs المستندة إلى LLM الاستجابة بشكل متماسك بدلاً من كسر الانغماس برد افتراضي "لا أفهم".

لا يعمل بشكل جيد:

  • حوار المسار الحرج - نقاط القصة التي يجب أن تسلم معلومات محددة أو تطلق حالات لعبة محددة. LLMs احتمالية ويمكن أن تحذف معلومات رئيسية أو تسلمها بشكل غير متسق.
  • القتال والتفاعل في الوقت الفعلي - متطلبات الكمون للقتال غير متوافقة مع سرعات استنتاج LLM الحالية؛ تبقى الأنظمة النصية المبرمجة ضرورية.
  • الشخصيات المفتوحة بالكامل - بدون قيود knowledge graph دقيقة، ستجعل LLMs NPCs تكشف معلومات لا ينبغي أن تعرفها، تكسر اتساق الشخصية، أو تولد استجابات غير متسقة مع المنطق الداخلي لعالم اللعبة.

مسألة التكلفة

استنتاج LLM ليس مجانيًا. لعبة بها 200 NPC مسماة، لكل منها آلاف المحادثات المحتملة مع اللاعبين، تولد تكاليف API كبيرة إذا تم تشغيلها على خدمات LLM تجارية. معظم النشر الإنتاجي الجاد يستكشف نماذج محلية أصغر: نماذج 7B-13B معلمة تم كَمْيتها للتشغيل على وحدات GPU ألعاب استهلاكية تحقق ملفات كمون وتكلفة متوافقة مع النشر التجاري للألعاب. فجوة الجودة مقابل النماذج الحدودية حقيقية لكنها تضيق، وبالنسبة لـ NPCs ذات الشخصيات وقيود المعرفة المحددة جيدًا، تؤدي النماذج الأصغر بشكل جيد مدهش.

الألعاب التي تكتشف توازن التكلفة والجودة هذا ستحدد العصر القادم لتصميم NPC. لن تختفي أشجار الحوار النصية - فهي لا تزال الأداة المناسبة للحظات القصة الحرجة والعناوين محدودة الموارد. لكن للألعاب مفتوحة العالم حيث الانغماس وفاعلية اللاعب هما القيمة الأساسية، تمثل NPCs المدعومة بـ LLM نقلة نوعية في ما يمكن أن تشعر به رواية القصص التفاعلية. الشخصيات التي تتذكرك، تستجيب لخياراتك، وتتفاعل بشكل طبيعي مع ما هو غير متوقع لم تعد مجرد فضول في عرض تقني. إنها الآن في خطوط الإنتاج.

مشاركة:
شخصيات لعبة تفكر فعلاً: كيف تُحدث LLMs تغييرًا في حوار NPCs | AIO APEX