[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SmartThinker : Apprendre à compresser et à préserver le raisonnement grâce au contrôle de la longueur par étape

Created by
  • Haebom

Auteur

Xingyang He, Xiao Ling, Jie Liu

Contour

Dans cet article, nous proposons un nouveau cadre d'apprentissage appelé SmartThinker pour remédier au coût de calcul excessif du processus d'inférence des modèles d'inférence à grande échelle (MRL). Le système actuel de pénalité de longueur globale présente le problème de condenser excessivement les étapes d'inférence aux étapes critiques. SmartThinker résout ce problème grâce à un cadre d'apprentissage en deux étapes qui ajuste finement la longueur de la chaîne d'inférence en fonction de l'importance de chaque étape. Dans la première étape, le modèle est adapté au mode d'inférence raccourci par échantillonnage par rejet et réglage fin par apprentissage supervisé (SFT). Dans la deuxième étape, l'optimisation de la politique de contrôle de longueur étape par étape (SCPO) est appliquée pour augmenter la longueur des étapes critiques et réduire celle des étapes moins critiques, améliorant ainsi l'efficacité. SCPO se compose de quatre composants : un estimateur d'importance en ligne, une fonction de récompense de contrôle de longueur étape par étape, une estimation de l'avantage de généralisation étape par étape (S-GAE) et une stratégie de découpage adaptative à la difficulté. Les résultats expérimentaux sur plusieurs benchmarks d'inférence et divers modèles de base montrent que SmartThinker réduit considérablement l'inférence redondante tout en maintenant des performances similaires ou meilleures par rapport aux méthodes existantes.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode qui peut améliorer considérablement l’efficacité d’inférence du LRM.
Nous démontrons l’efficacité d’une approche affinée qui contrôle la longueur en fonction de l’importance de chaque étape d’inférence.
Nous démontrons expérimentalement qu’il réduit les inférences redondantes tout en maintenant des performances équivalentes ou supérieures à celles des méthodes existantes.
Permettre un contrôle efficace de la longueur grâce aux composants SCPO (estimateur d'importance en ligne, fonction de récompense contrôlée par la longueur étape par étape, S-GAE et stratégie de découpage adaptative à la difficulté).
Limitations:
Les améliorations de performances de SmartThinker peuvent être limitées à des benchmarks et des modèles de base spécifiques.
La précision de l’estimateur d’importance en ligne peut affecter les performances globales.
Des recherches supplémentaires pourraient être nécessaires pour déterminer l’exactitude des évaluations d’importance étape par étape.
Une validation supplémentaire des performances de généralisation pour différents types de problèmes d’inférence est nécessaire.
👍