[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Un aperçu des frontières du raisonnement LLM : mise à l'échelle des inférences, apprentissage du raisonnement et systèmes agentiques

Created by
  • Haebom

Auteur

Zixuan Ke, Fangkai Jiao, Yifei Ming, Xuan-Phi Nguyen, Austin Xu, Do Xuan Long, Minzhi Li, Chengwei Qin, Peifeng Wang, Silvio Savarese, Caiming Xiong, Shafiq Joty

Contour

Cet article est une étude de synthèse portant sur la capacité d'inférence des modèles de langage à grande échelle (MLH). Cette capacité est une caractéristique clé qui distingue les systèmes d'IA avancés des modèles existants. Dans cet article, nous classons les méthodes d'inférence existantes en deux dimensions : les « régimes », qui définissent le moment où l'inférence a lieu (temps d'inférence ou inférence par apprentissage), et les « architectures », qui déterminent les composants impliqués dans le processus d'inférence (MLH autonomes, systèmes composites d'agents intégrant des outils externes, collaboration multi-agents). Pour chaque dimension, nous analysons deux perspectives : le « niveau d'entrée », qui met l'accent sur les techniques de génération d'invites de haute qualité, et le « niveau de sortie », qui améliore la qualité de l'inférence en améliorant plusieurs échantillons candidats. L'article met en évidence les tendances émergentes telles que le passage de la mise à l'échelle de l'inférence à l'inférence basée sur l'apprentissage (par exemple, DeepSeek-R1), aux flux de travail basés sur des agents (par exemple, OpenAI Deep Research, Manus Agent), et couvre un large éventail d'algorithmes d'apprentissage, du réglage fin de l'apprentissage supervisé à l'apprentissage par renforcement (PPO, GRPO) et à la formation des inféreurs et des vérificateurs, ainsi que des conceptions clés de flux de travail basés sur des agents tels que les discussions sur les générateurs-évaluateurs et les LLM.

Takeaways, Limitations

Takeaways:
Classifie systématiquement les méthodes d'inférence LLM pour approfondir la compréhension du domaine en évolution de l'inférence LLM.
Nous présentons les principales tendances telles que le passage des extensions d’inférence à l’inférence basée sur l’apprentissage et le passage aux flux de travail basés sur les agents.
Couvre de manière exhaustive divers algorithmes d'apprentissage et la conception de flux de travail basés sur des agents.
Limitations:
ÉTant donné que cet article est un article d’enquête, il ne présente aucune nouvelle méthodologie ni aucun résultat expérimental.
Le volume considérable de méthodologies couvertes peut empêcher une analyse approfondie de chaque méthodologie.
En raison des développements rapides dans le domaine de l’inférence LLM, de nouvelles méthodologies sont susceptibles d’émerger après la publication de l’article.
👍