Cet article est une étude de synthèse portant sur la capacité d'inférence des modèles de langage à grande échelle (MLH). Cette capacité est une caractéristique clé qui distingue les systèmes d'IA avancés des modèles existants. Dans cet article, nous classons les méthodes d'inférence existantes en deux dimensions : les « régimes », qui définissent le moment où l'inférence a lieu (temps d'inférence ou inférence par apprentissage), et les « architectures », qui déterminent les composants impliqués dans le processus d'inférence (MLH autonomes, systèmes composites d'agents intégrant des outils externes, collaboration multi-agents). Pour chaque dimension, nous analysons deux perspectives : le « niveau d'entrée », qui met l'accent sur les techniques de génération d'invites de haute qualité, et le « niveau de sortie », qui améliore la qualité de l'inférence en améliorant plusieurs échantillons candidats. L'article met en évidence les tendances émergentes telles que le passage de la mise à l'échelle de l'inférence à l'inférence basée sur l'apprentissage (par exemple, DeepSeek-R1), aux flux de travail basés sur des agents (par exemple, OpenAI Deep Research, Manus Agent), et couvre un large éventail d'algorithmes d'apprentissage, du réglage fin de l'apprentissage supervisé à l'apprentissage par renforcement (PPO, GRPO) et à la formation des inféreurs et des vérificateurs, ainsi que des conceptions clés de flux de travail basés sur des agents tels que les discussions sur les générateurs-évaluateurs et les LLM.