Des personnages de jeu qui pensent vraiment : comment les LLMs transforment les dialogues des NPCs

Tout joueur ayant passé du temps dans un RPG en monde ouvert a vécu ce moment qui brise l’immersion : vous posez une question légèrement hors script à un NPC, et il répond avec la même ligne pré-écrite qu’il donnerait à toute question sur ce sujet. Le forgeron qui vient d’assister à une attaque de dragon livrera quand même son discours sur les prix de la forge si vous cliquez sur la mauvaise option de dialogue. Le garde qui connaît votre nom d’une rencontre précédente l’a complètement oublié dans une nouvelle conversation. Ce ne sont pas des bugs — ils sont le résultat inévitable des arbres de dialogue scriptés, et ils ont défini l’interaction avec les NPCs dans les jeux vidéo pendant 30 ans.

Cela est en train de changer, et le changement se produit plus vite que la plupart des joueurs ne le réalisent.

Ce que Inworld, Convai et Ubisoft construisent réellement

Plusieurs entreprises et studios intègrent désormais des LLMs directement dans les moteurs de jeu pour alimenter les dialogues des NPCs. L’approche varie, mais l’architecture centrale est similaire : chaque NPC possède un system prompt définissant sa personnalité, son histoire, ses contraintes de connaissances, son historique relationnel et ses objectifs comportementaux. Les entrées du joueur vont au LLM, qui génère des réponses dans le personnage. Les réponses sont ensuite filtrées pour la politique de contenu et la cohérence du gameplay avant d’être livrées — généralement sous forme de texte envoyé à un système de synthèse vocale pour le dialogue parlé.

Inworld AI, qui dispose d’intégrations avec Unreal Engine et Unity, a publié des études de cas montrant des NPCs qui maintiennent une cohérence conversationnelle sur des dizaines de tours, se souviennent des actions du joueur plus tôt dans une session et adaptent leur ton en fonction de la relation que le joueur a construite avec eux. Un NPC qui se méfie du joueur sera réservé ; un qui a été aidé sera plus chaleureux. Ce n’est pas un nouveau mécanisme — les systèmes de réputation existent depuis des années — mais l’expression de cette relation à travers le langage naturel est qualitativement différente du fait de basculer entre une branche de dialogue « amicale » et « hostile ».

Le projet NEO NPCs d’Ubisoft, démontré à la GDC 2024 et avancé depuis, utilise des LLMs combinés à un knowledge graph qui représente ce que chaque NPC sait du monde du jeu. Les personnages peuvent répondre à des questions sur des lieux, d’autres personnages et des événements récents — mais seulement si leur profil de personnage leur donne accès à ces informations. Un tavernier connaît les ragots de la ville ; un ermite de la forêt non. Le knowledge graph empêche les NPCs de révéler accidentellement des informations que leur personnage ne devrait pas avoir — un problème que les LLMs non contrôlés produisent de manière fiable.

Le problème de la mémoire

Les fenêtres de contexte (context windows) sont la contrainte fondamentale. Une fenêtre de contexte standard de LLM peut contenir un historique de conversation significatif, mais pas la totalité de la relation d’un joueur avec un NPC sur des dizaines d’heures de jeu. Lorsque le contexte se remplit, les souvenirs les plus anciens disparaissent, et les personnages commencent à oublier des choses qu’ils devraient savoir.

Plusieurs approches abordent cela. Les systèmes RAG (génération augmentée par récupération) stockent les souvenirs des NPCs dans une base de données vectorielle et récupèrent les souvenirs pertinents en fonction du contexte de conversation actuel. Lorsqu’un joueur mentionne une quête accomplie il y a trois sessions, le système RAG extrait le souvenir pertinent et l’injecte dans le prompt. Cela donne aux NPCs une mémoire à long terme effectivement illimitée, limitée seulement par ce qui est stocké et récupéré avec précision.

D’autres approches utilisent des schémas de mémoire structurée : plutôt que de stocker le texte brut de la conversation, les événements clés sont extraits et stockés sous forme de faits structurés (« Le joueur a aidé le personnage à s’évader de prison le jour 14 », « Le joueur n’a jamais été impoli avec le personnage », « Le joueur n’a pas terminé la quête du personnage »). Ces souvenirs structurés sont récupérés de manière plus fiable et moins ambigus que le texte brut, au prix d’une certaine nuance.

Le problème de la voix

Les réponses textuelles des NPCs sont fonctionnelles mais plates. Les joueurs dans les jeux doublés s’attendent à un dialogue parlé, et générer du texte en temps réel n’est que la moitié de la solution. La synthèse vocale en temps réel s’est considérablement améliorée — ElevenLabs, PlayHT et d’autres offrent une génération vocale à faible latence qui peut délivrer une parole synthétisée en 200 à 400 millisecondes après réception du texte — mais la sortie manque encore de la nuance d’interprétation des comédiens de doublage professionnels. Les voix générées peuvent sembler légèrement robotiques, en particulier dans les moments chargés émotionnellement.

Certains studios explorent des approches hybrides : une bibliothèque de vocalisations émotionnelles préenregistrées (« surprise », « peur », « joie », « sarcasme ») combinée à une parole synthétisée pour le contenu. La coloration émotionnelle provient des performances préenregistrées ; les mots spécifiques proviennent de la synthèse. Les premiers résultats suggèrent que cela sonne plus naturel que la synthèse pure pour les moments hautement émotionnels.

Ce qui fonctionne et ce qui ne fonctionne pas

L’expérience pratique des titres commercialisés et en développement révèle des schémas clairs là où les NPCs alimentés par LLM fonctionnent bien et là où ils échouent.

Fonctionne bien :

Conversation ambiante — les NPCs discutant du lore, des événements de la ville, de leur vie quotidienne. Faible enjeu, bénéfice d’immersion élevé.
Transmission d’informations — les NPCs qui donnent des directions, expliquent le contexte d’une quête ou fournissent des connaissances du monde. Les LLMs sont excellents pour synthétiser et présenter l’information naturellement.
Construction de relations — les NPCs qui répondent au ton et à l’historique du joueur, développant des relations distinctes avec les joueurs qui interagissent différemment avec eux.
Gestion des surprises — lorsque les joueurs font des choses inattendues, les NPCs basés sur LLM peuvent répondre de manière cohérente plutôt que de briser l’immersion avec une réponse par défaut « Je ne comprends pas ».

Ne fonctionne pas bien :

Dialogue de chemin critique — les moments de l’histoire qui doivent délivrer des informations spécifiques ou déclencher des états de jeu particuliers. Les LLMs sont probabilistes et peuvent omettre des informations clés ou les délivrer de manière incohérente.
Combat et interaction en temps réel — les exigences de latence pour le combat sont incompatibles avec les vitesses d’inférence actuelles des LLMs ; les systèmes pré-scriptés restent nécessaires.
Personnages entièrement ouverts — sans contraintes soigneuses du knowledge graph, les LLMs feront que les NPCs révèlent des informations qu’ils ne devraient pas connaître, brisent la cohérence du personnage ou génèrent des réponses incohérentes avec la logique interne du monde du jeu.

La question du coût

L’inférence LLM n’est pas gratuite. Un jeu avec 200 NPCs nommés, chacun ayant potentiellement des milliers de conversations avec les joueurs, génère des coûts d’API significatifs s’il fonctionne sur des services LLM commerciaux. La plupart des déploiements de production sérieux explorent des modèles locaux plus petits : des modèles de 7B à 13B paramètres quantifiés pour fonctionner sur des GPU grand public de jeu atteignent des profils de latence et de coût compatibles avec le déploiement commercial de jeux. L’écart de qualité par rapport aux modèles de pointe est réel mais se réduit, et pour les NPCs avec des personnalités et des contraintes de connaissances bien définies, les modèles plus petits fonctionnent étonnamment bien.

Les jeux qui trouvent cet équilibre entre coût et qualité définiront la prochaine ère de la conception des NPCs. Les arbres de dialogue scriptés ne disparaîtront pas — ils restent l’outil approprié pour les moments critiques de l’histoire et les titres aux ressources limitées. Mais pour les jeux en monde ouvert où l’immersion et l’agentivité du joueur sont la principale proposition de valeur, les NPCs alimentés par LLM représentent un changement d’ampleur dans ce que la narration interactive peut offrir. Les personnages qui se souviennent de vous, répondent à vos choix et réagissent naturellement à l’inattendu ne sont plus une curiosité de démo technique. Ils sont désormais dans les pipelines de production.