Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SimpleRL-Zoo : Enquête et maîtrise de l'apprentissage par renforcement zéro pour les modèles à base ouverte dans la nature

Created by
  • Haebom

Auteur

Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He

Contour

Cet article démontre l'émergence naturelle de l'inférence par chaîne de pensée à longue portée (CdP) grâce à un cadre d'apprentissage par renforcement (RL) simple utilisant des récompenses basées sur des règles. Cet article applique l'approche d'apprentissage sans RL de DeepSeek-R1 à différents modèles de base. Contrairement aux études précédentes qui se concentraient principalement sur le modèle Qwen2.5, nous avons effectué un apprentissage sans RL sur dix modèles de base différents, dont LLaMa3-8B, Mistral-7B/24B, DeepSeek-Math-7B et Qwen2.5-math-7B. Des stratégies telles que l'ajustement formel des récompenses et le contrôle de la difficulté des requêtes ont significativement amélioré la précision de l'inférence et la longueur des réponses dans la plupart des contextes. Cependant, le suivi de la dynamique d'apprentissage a révélé que les différents modèles de base présentaient des schémas d'apprentissage uniques. Par exemple, l'augmentation de la longueur des réponses n'était pas toujours corrélée à l'émergence de comportements cognitifs spécifiques, comme la validation. Nous avons notamment observé des « moments d'illumination » pour la première fois dans un modèle à petite échelle en dehors de la famille Qwen. Nous partageons la conception de base, les résultats de recherche et l'expérience pratique qui permettent un apprentissage RL de niveau zéro réussi, ainsi que du code open source, des modèles et des outils d'analyse.

Takeaways, Limitations_

Takeaways:
Nous validons l’efficacité de l’apprentissage zéro-RL sur divers modèles de base et présentons des stratégies de conception clés pour un apprentissage réussi.
Nous avons obtenu des améliorations dans la précision de l’inférence et la longueur des réponses grâce à l’ajustement de la compensation du format et au contrôle de la difficulté des requêtes.
Nous avons également observé des « moments aha » dans des modèles à petite échelle en dehors de la famille Qwen, démontrant la diversité des architectures de modèles et l'applicabilité de l'apprentissage à apprentissage zéro.
Nous soutenons des recherches plus poussées en rendant open source notre code, nos modèles et nos outils d'analyse.
Limitations:
Une compréhension plus approfondie du processus d’apprentissage du modèle peut faire défaut, comme en témoigne l’absence de corrélation cohérente entre l’augmentation de la durée de réponse et l’émergence de comportements cognitifs.
Malgré la diversité des modèles sous-jacents utilisés, il est probable que des biais en faveur de certaines familles de modèles existent.
Vous aurez peut-être besoin de critères clairs pour définir et mesurer un « moment d’illumination ».
👍