Mixture-of-Experts est l'architecture au cœur des plus grands LLMs en production — et son fonctionnement diffère de ce que la plupart des gens imaginent

Quand OpenAI a lancé GPT-4, l'entreprise a refusé de publier un nombre de paramètres. Des mois plus tard, des documents divulgués et des benchmarks concordants ont suggéré que le modèle utilise une architecture Mixture-of-Experts (MoE) avec environ 1,8 trillion de paramètres répartis sur huit sous-réseaux experts — mais n'en active qu'environ 220 milliards par forward pass. Ce choix architectural explique à lui seul à la fois le plafond de capacité du modèle et l'économie de son inférence, d'une manière qu'un simple décompte de paramètres ne pourrait jamais révéler.

MoE est désormais l'architecture dominante des modèles de pointe. Gemini 1.5 de Google utilise MoE. Les modèles ouverts Mixtral 8x7B et 8x22B de Mistral AI ont rendu MoE accessible aux auto-hébergeurs. Les recherches internes de Meta sur MoE pour les successeurs de Llama sont bien documentées. Comprendre comment cette architecture fonctionne réellement — et où elle apporte une réelle valeur ajoutée par rapport à un simple effet marketing — est crucial si vous décidez quels modèles déployer ou comment évaluer les nouvelles versions.

L'idée centrale : le calcul conditionnel

Un modèle dense standard comme Llama 2 70B active chacun de ses 70 milliards de paramètres pour chaque Token qu'il traite. C'est coûteux en calcul mais prévisible. MoE remplace les couches feedforward (les couches qui constituent la majeure partie du nombre de paramètres d'un Transformer) par plusieurs réseaux experts parallèles, plus un routeur léger. Pour chaque Token, le routeur sélectionne les top-k experts — généralement 2 sur 8 ou 16 — et seuls ces experts traitent le Token. Les résultats sont pondérés et combinés.

La conséquence pratique : un modèle Mixtral 8x7B a environ 47 milliards de paramètres au total, mais chaque Token n'en touche qu'environ 13 milliards. Vous obtenez la majeure partie de la capacité représentationnelle d'un modèle dense de 47B tout en exécutant l'inférence à un coût plus proche de 13B. Le débit est environ doublé par rapport à un modèle dense équivalent sur le même matériel, pour une qualité de sortie identique.

Ce que le routeur apprend réellement

Le routeur est une petite couche linéaire qui produit une distribution de probabilité sur tous les experts disponibles. Il est entraîné de bout en bout avec le reste du modèle par descente de gradient standard — il n'y a pas de pré-entraînement séparé ni d'étiquetage manuel pour déterminer quel expert doit gérer quel contenu. Ce qui émerge est une spécialisation approximative par domaine : l'analyse des schémas de routage de Mixtral montre que les experts développent des préférences souples pour la syntaxe du code, le raisonnement en langage naturel, le rappel de faits, etc. Mais cette spécialisation est imprécise et ne correspond pas toujours aux intuitions humaines sur les sujets.

Un problème d'ingénierie persistant est l'équilibrage de charge. Sans intervention, le routeur a tendance à se concentrer sur un petit ensemble d'experts « populaires » et à en affamer d'autres, gaspillant ainsi la capacité. La solution standard est une perte auxiliaire d'équilibrage de charge ajoutée pendant l'entraînement, qui pénalise une utilisation inégale des experts. Bien ajuster l'intensité de cette perte est un hyperparamètre qui affecte à la fois la qualité du modèle et l'efficacité matérielle — trop faible, et les experts s'effondrent ; trop forte, et le routeur ne peut pas apprendre une spécialisation significative.

Le goulet d'étranglement mémoire que le marketing ignore

C'est là que MoE devient compliqué pour les déployeurs. Tous les paramètres doivent résider en mémoire même si seule une fraction est activée par Token. Un modèle Mixtral 8x22B — avec environ 141 milliards de paramètres au total — nécessite environ 280 Go de VRAM GPU en précision BF16 avant même de prendre en compte le cache KV. Cela signifie au moins quatre GPU H100 80 Go rien que pour contenir les poids, même si le débit d'inférence est similaire à celui d'un modèle dense beaucoup plus petit.

Cela crée une fracture dans l'infrastructure. Dans un centre de données où vous pouvez dédier un nœud de 4 GPU par réplica de modèle, MoE est réellement moins cher par Token. Dans un déploiement où vous essayez de colocaliser plusieurs modèles sur du matériel partagé, l'empreinte mémoire de MoE le rend coûteux. C'est aussi pourquoi la quantification est plus importante pour les modèles MoE : réduire Mixtral 8x7B à une précision 4 bits (environ 25 Go) est ce qui le rend pratique à exécuter sur une seule station de travail grand public ou un serveur à deux GPU.

Le parallélisme des experts comme levier de mise à l'échelle

Pour l'entraînement de très grands modèles MoE, une technique appelée expert parallelism distribue différents experts sur différents GPU physiques. Lorsqu'un Token est routé vers Expert #5, le calcul s'effectue sur le GPU qui contient les poids d'Expert #5, et le résultat est renvoyé. Cela transforme les communications all-reduce en transferts point à point plus localisés et permet un entraînement à des échelles qui nécessiteraient autrement trop de mémoire par GPU.

Le papier Switch Transformer de Google datant de 2021 a démontré cela avec 1,6 trillion de paramètres — le premier modèle trillion de paramètres documenté publiquement. Le résultat clé : un MoE à 64 experts avec le même budget de calcul qu'un modèle dense T5-XXL a permis d'accélérer l'entraînement par 4 tout en égalant ou dépassant la qualité sur les benchmarks standards. Le papier a également documenté les modes de défaillance : instabilité de l'entraînement avec un nombre élevé d'experts, le problème d'effondrement de l'équilibrage de charge, et la surcharge de communication dans les configurations multi-nœuds.

Où MoE est réellement moins performant que les modèles denses

L'apprentissage few-shot sur des tâches hautement spécifiques à un domaine est un domaine où les modèles MoE peuvent être moins performants que des modèles denses de taille équivalente. Parce que le routeur attribue les Tokens de manière probabiliste et que différents Tokens d'un même prompt peuvent être dirigés vers différents experts, la « mémoire » du modèle concernant le contexte initial peut être fragmentée entre les experts, nuisant à la cohérence sur des documents longs et spécialisés. Des retours anecdotiques provenant de déploiements en entreprise de Mixtral suggèrent que les modèles denses d'un coût d'inférence équivalent produisent parfois de meilleurs résultats sur des textes juridiques ou médicaux où la cohérence terminologique exacte est importante.

La taille du batch compte également. L'avantage en débit de l'architecture MoE est plus prononcé pour les grands batches, où tous les experts reçoivent une utilisation à peu près égale. Avec un batch de taille 1 — un utilisateur unique effectuant une requête en temps réel — vous activez deux experts et attendez que les six autres restent inactifs. La latence par Token peut même être pire que celle d'un modèle dense avec un nombre équivalent de paramètres activés, en raison de la surcharge de routage. C'est pourquoi les déploiements en production regroupent les requêtes de manière agressive et pourquoi les endpoints d'API en streaming ont des profils de latence différents de ceux des endpoints d'inférence par batch.

Décisions pratiques pour les équipes évaluant les modèles MoE

Si vous comparez un modèle dense 70B à un modèle MoE comme Mixtral 8x22B pour un déploiement, la bonne comparaison n'est pas le nombre de paramètres — c'est l'empreinte mémoire par rapport à la qualité sur votre charge de travail spécifique. Exécutez les deux sur votre distribution de tâches réelle. Mixtral 8x22B surpassera systématiquement Llama 2 70B sur les benchmarks de raisonnement, mais l'écart se réduit considérablement sur les tâches étroites de retrieval-augmented generation où le jeu de données est homogène.

Pour le fine-tuning, les modèles MoE présentent un défi particulier : le fine-tuning LoRA appliqué uniquement aux couches denses ne touchera pas les poids des experts, qui contiennent la majorité des connaissances spécialisées du modèle. Le fine-tuning complet des modèles MoE est gourmand en mémoire. Des variantes LoRA spécifiques à MoE qui appliquent des adaptateurs aux couches feedforward des experts existent mais ne font pas encore partie des outils standards — vérifiez si votre framework de fine-tuning les prend en charge avant de vous engager.

Les poids du routeur eux-mêmes peuvent être gelés pendant le fine-tuning pour préserver les schémas de spécialisation appris lors du pré-entraînement. Cela fonctionne bien lorsque vous affinez pour une tâche bien représentée dans la distribution d'entraînement originale. Lors de l'adaptation à un domaine véritablement nouveau, dégeler le routeur et accepter un fine-tuning plus long en vaut la peine.

Ce qui nous attend

Les directions de recherche actuellement explorées incluent le MoE sparse avec plus de deux experts activés par Token (échangeant du calcul contre de la qualité), le routage hiérarchique où un routeur grossier sélectionne des « familles » d'experts avant qu'un routeur fin ne sélectionne des experts spécifiques, et les architectures mixture-of-depths qui acheminent les Tokens vers différentes couches plutôt que différents experts au sein d'une même couche. Le papier de Google DeepMind de 2024 sur mixture-of-depths a montré que tous les Tokens n'ont pas besoin de traverser chaque couche Transformer, permettant ainsi des gains supplémentaires de calcul conditionnel.

La leçon architecturale de MoE est constante : les lois de mise à l'échelle récompensent le calcul conditionnel. Dépenser tout votre calcul pour chaque Token et chaque tâche est un gaspillage. Les modèles qui compteront dans les deux prochaines années seront de plus en plus des systèmes hybrides qui acheminent le travail de manière intelligente — que ce soit vers des experts au sein d'un modèle, vers différents modèles via une orchestration, ou vers des outils externes. MoE est la première démonstration à l'échelle de production que ce principe fonctionne au niveau des poids.