[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

La difficulté rapide peut-elle être prédite en ligne pour accélérer le réglage fin des modèles de raisonnement par RL ?

Created by
  • Haebom

Auteur

Yun Qu, Qi Cheems Wang, Yixiu Mao, Vincent Tao Hu, Xiangyang Ji

Contour

Cet article présente une nouvelle méthode pour résoudre le problème du coût de calcul élevé qui se pose lors de l'amélioration de la capacité d'inférence des modèles linguistiques à grande échelle (LLM) par apprentissage par renforcement (RL). Les méthodes d'optimisation RL existantes souffrent d'un coût de calcul élevé en raison de la nécessité de nombreuses évaluations répétées des invites et de mises à jour des politiques pour atteindre des performances optimales. Dans cet article, nous proposons la sélection prédictive des invites de modèle (MoPPS), un cadre bayésien de prédiction du risque qui estime la difficulté des invites en ligne sans interactions LLM coûteuses. MoPPS modélise la probabilité de succès de chaque invite comme une variable latente, effectue une inférence bayésienne en continu et permet une sélection adaptative et efficace des invites par échantillonnage a posteriori sur une machine à bandit multi-bras configurée. Grâce à des expériences approfondies sur des tâches de mathématiques, de planification et de géométrie basées sur la vision, nous montrons que MoPPS prédit de manière fiable la difficulté des invites et réduit considérablement le déploiement des LLM, accélérant ainsi l'apprentissage.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle méthode permettant de réduire efficacement le coût de calcul du réglage fin RL dans les tâches d'inférence basées sur LLM.
Prédisez efficacement la difficulté des invites grâce à MoPPS et améliorez l'efficacité de l'apprentissage en sélectionnant préférentiellement les invites riches en informations.
Nous validons expérimentalement l’efficacité de MoPPS dans une variété de tâches, notamment les mathématiques, la planification et la géométrie visuelle.
Limitations:
Les performances de MoPPS dépendent de la précision du modèle d'inférence bayésien, et il existe une possibilité de dégradation des performances si les hypothèses du modèle ne correspondent pas aux données réelles.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation à travers différents types de LLM et de tâches.
Des recherches supplémentaires peuvent être nécessaires sur l’optimisation des paramètres et les réglages de MoPPS.
👍