[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

L'arithmétique Logit stimule les capacités de raisonnement à long terme sans formation

Created by
  • Haebom

Auteur

Yunxiang Zhang, Muhammad Khalifa, Lechen Zhang, Xin Liu, Ayoung Lee, Xinliang Frederick Zhang, Farima Fatahi Bayat, Lu Wang

Contour

Dans cet article, nous proposons ThinkLogit, une nouvelle méthode pour améliorer la capacité d'inférence à long terme des modèles d'inférence à grande échelle (LRM). ThinkLogit est une approche de décodage qui améliore la capacité d'inférence à long terme d'un modèle à grande échelle (modèle cible) en utilisant un petit modèle (modèle guide) à l'aide d'opérations logit. De plus, nous proposons ThinkLogit-DPO, qui entraîne le modèle guide par optimisation des préférences en utilisant des paires d'inférence correctes/incorrectes. Les résultats expérimentaux montrent que lorsque le modèle Qwen2.5-32B est guidé par R1-Distill-Qwen-1.5B (un modèle 21 fois plus petit), ThinkLogit et ThinkLogit-DPO améliorent respectivement la performance pass@1 de 26 % et 29 % sur quatre jeux de données mathématiques. De plus, ThinkLogit transfère les compétences d'inférence à long terme obtenues par apprentissage par renforcement pour améliorer la performance pass@1 de 13 % par rapport au modèle de base Qwen2.5-32B. Il s’agit d’une méthode informatiquement efficace pour induire une inférence à long terme dans des modèles à grande échelle sans apprentissage supplémentaire ou avec un apprentissage minimal.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour améliorer efficacement la capacité d’inférence à long terme des modèles à grande échelle en tirant parti de petits modèles.
Une approche informatique efficace qui nécessite peu ou pas d’apprentissage supplémentaire.
Nous démontrons que les compétences d’inférence à long terme acquises grâce à l’apprentissage par renforcement peuvent être transférées.
Limitations:
L'efficacité de la méthode proposée pourrait être limitée à certains modèles et ensembles de données. Des expérimentations sur des modèles et des ensembles de données plus diversifiés sont nécessaires.
Les performances du modèle de guidage peuvent affecter les performances globales du système. Des recherches supplémentaires sont nécessaires sur la sélection et l'optimisation du modèle de guidage.
ÉTant donné qu’il se concentre sur des ensembles de données mathématiques, ses performances de généralisation à d’autres types de problèmes d’inférence nécessitent une étude plus approfondie.
👍