[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le défi d'enseigner le raisonnement aux étudiants en LLM sans apprentissage à distance ni distillation

Created by
  • Haebom

Auteur

Wei Du, Branislav Kisacanin, George Armstrong, Shubham Toshniwal, Ivan Moshkov, Alexan Ayrapetyan, Sadegh Mahdavi, Dan Zhao, Shizhe Diao, Dragan Masulovic, Marius Stanean, Advaith Avadhanam, Max Wang, Ashmit Dutta, Shitij Govil, Sri Yanamandara, Mihir Tandon, Sriram Ananthakrishnan, Vedant Rathi, David Zhang, Joonseok Kang, Leon Luo, Titu Andreescu, Boris Ginsburg, Igor Gitman

Contour

Cet article étudie un modèle de langage inférable qui atteint des performances de pointe sur diverses tâches complexes en générant des traces de chaîne de pensée (CoT). Des études antérieures ont montré que les modèles de base peuvent acquérir de telles traces d'inférence à partir de modèles puissants (par exemple, DeepSeek-R1) par apprentissage par renforcement ou distillation des connaissances. Cependant, certaines études ont montré que même une brève incitation à la CoT sans ajustement fin peut améliorer les performances d'inférence. Dans cet article, nous nous demandons s'il est possible d'induire de longues CoT à partir de modèles de base en utilisant uniquement l'incitation ou un ajustement fin minimal. En utilisant seulement 20 exemples de longues CoT issus du modèle d'inférence QwQ-32B-Preview, nous affinons légèrement le modèle de base Qwen2.5-32B et montrons qu'il surpasse le modèle beaucoup plus vaste Qwen2.5-Math-72B-Instruct. Cela suggère qu'un petit nombre d'exemples de haute qualité peut contribuer à libérer de puissantes capacités d'inférence. Nous avons également exploré l'utilisation de données CoT issues de modèles non inférentiels améliorés et d'annotateurs humains via l'ingénierie rapide, l'édition multi-passes et le guidage structurel, mais nous n'avons pas réussi à égaler les performances du suivi de modèles inférentiels. Cela suggère qu'il est difficile de reproduire certaines caractéristiques latentes des CoT experts. Nous avons analysé l'impact de caractéristiques clés des données inférentielles, telles que la difficulté du problème, la variété et la longueur des réponses, sur la distillation inférentielle. Bien que des défis subsistent, nous sommes optimistes quant à la possibilité qu'une petite quantité de CoT soigneusement sélectionnée et rédigée par des humains puisse permettre un comportement inférentiel dans le modèle de base. Nous proposons de poursuivre les recherches en publiant des ensembles de données rédigés par des humains à différentes étapes et en explorant l'efficacité de la supervision inférentielle à petite échelle.

Takeaways, Limitations_

Takeaways:
Nous montrons qu’un réglage fin léger utilisant un petit nombre d’exemples CoT de haute qualité peut améliorer considérablement la capacité d’inférence du modèle de base.
Nous démontrons que les données CoT issues de modèles d’inférence sont beaucoup plus efficaces que les données issues de modèles non inférentiels ou d’annotateurs humains.
Les caractéristiques des données telles que la difficulté du problème, la diversité et la longueur des réponses affectent la distillation des inférences.
Ouverture d'un petit ensemble de données CoT créé par des humains pour jeter les bases de recherches ultérieures.
Limitations:
Difficultés à reproduire les données CoT pour les modèles d'inférence. Les données issues de modèles non inférentiels ou d'annotateurs humains sont inférieures aux performances des modèles d'inférence.
Le défi de générer et de collecter des données CoT de haute qualité.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation sur de petits ensembles de données.
👍