Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

À Quelle distance sommes-nous de l’efficacité optimale du raisonnement ?

Created by
  • Haebom

Auteur

Jiaxuan Gao, Shu Yan, Qixin Tan, Lu Yang, Shusheng Xu, Wei Fu, Zhiyu Mei, Kaifeng Lyu, Yi Wu

Contour

Cet article propose le concept de frontières d'efficacité du raisonnement afin de résoudre les problèmes d'inefficacité causés par l'excès de détails et la redondance dans le processus d'inférence par chaîne de threads (CoT) des modèles de raisonnement à grande échelle (MRL). Sur la base de bornes supérieures empiriques obtenues par diverses méthodes de réglage fin et configurations d'apprentissage, nous proposons la métrique d'écart d'efficacité du raisonnement (REG), qui quantifie l'écart entre un MRL affiné et cette borne. Les évaluations de référence mathématiques révèlent un écart d'efficacité significatif entre les méthodes existantes. Pour réduire cet écart, nous proposons REO-RL, un algorithme d'apprentissage par renforcement qui minimise l'écart d'efficacité en ciblant un ensemble clairsemé de budgets de jetons. REO-RL exploite l'intégration numérique sur des budgets stratégiquement sélectionnés pour approcher l'objectif d'efficacité global avec un petit budget de jetons. Les résultats expérimentaux montrent que REO-RL réduit l'écart d'efficacité de plus de 50 % pour tous les MRL évalués.

Takeaways, Limitations

Takeaways:
Nous proposons REG, une métrique unifiée pour évaluer l'efficacité d'inférence de LRM, et grâce à cela, nous révélons clairement les limites des méthodes existantes.
Nous proposons REO-RL, un algorithme d'apprentissage par renforcement qui minimise REG, et vérifions son efficacité par des expériences.
Proposer de nouvelles directions de recherche pour améliorer l’efficacité d’inférence du LRM.
Nous démontrons l’utilité de la métrique REG pour saisir efficacement le compromis entre efficacité et précision.
Limitations:
Le réglage précis du LRM pour qu’il corresponde parfaitement à la limite d’efficacité reste un défi non résolu.
Des recherches supplémentaires sont nécessaires pour évaluer les performances de généralisation de l’algorithme REO-RL proposé et son applicabilité à divers types de problèmes.
👍