Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Ingénierie préalable rapide pour le réglage fin du renforcement

Created by
  • Haebom

Auteur

Pittawat Taveekitworachai, Potsawee Manakul, Sarana Nutanong, Kunat Pipatanakul

Contour

Cet article examine l'efficacité de l'ingénierie des invites préalables (pPE) dans le réglage fin du renforcement (RFT). Alors que les recherches précédentes sur le RFT se concentraient principalement sur les algorithmes, la conception des récompenses et la gestion des données, la conception du pPE (les instructions ajoutées aux requêtes pendant l'apprentissage (par exemple, le guidage d'inférence étape par étape)) a été peu étudiée. Dans cet article, nous étudions si différentes approches de pPE peuvent induire différents comportements dans les modèles de langage (ML) après le RFT. Nous convertissons cinq stratégies utilisées dans l'ingénierie des invites au temps d'inférence (iPE) (inférence, planification, raisonnement basé sur le code, rappel des connaissances et exploitation d'exemples nuls) en pPE et les appliquons au modèle Qwen2.5-7B. Nous évaluons leurs performances sur des benchmarks tels que AIME2024, HumanEval+ et GPQA-Diamond. Les résultats expérimentaux montrent que tous les modèles entraînés par PPE surpassent les modèles guidés par iPE. L'approche PPE par exemple nul obtient les gains de performance les plus importants, les plus importants étant observés sur AIME2024 et GPQA-Diamond. De plus, en utilisant un cadre de classification comportementale, nous démontrons que différentes stratégies PPE inculquent différents styles comportementaux aux modèles.

Takeaways, Limitations_

Takeaways:
Révélant que le pPE est un composant important du RFT.
Nous présentons la possibilité d’améliorer les performances du modèle en appliquant diverses stratégies iPE au pPE.
Démontrer la supériorité de l’approche pPE à exemple nul.
Nous montrons que le pPE est efficace pour contrôler le style comportemental du modèle.
Soulignez l’importance du pPE dans les futures études RFT.
Limitations:
ÉTant donné que ces résultats concernent un modèle spécifique (Qwen2.5-7B) et un benchmark, la généralisabilité est limitée.
Des recherches supplémentaires sont nécessaires sur d’autres LM ou d’autres algorithmes RFT.
Des recherches supplémentaires sont nécessaires sur les interactions et les combinaisons optimales entre les stratégies d’EPI.
Manque d’analyse des coûts informatiques et de l’efficacité des EPI.
👍