Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RLAIF hors ligne : Pilotage des commentaires VLM pour RL via SFO

Created by
  • Haebom

Auteur

Jacob Beck

Contour

Dans cet article, nous étudions comment utiliser le retour d'information de l'IA dans l'apprentissage par renforcement en exploitant la capacité de compréhension d'images des modèles vision-langage (VLM) afin de résoudre la difficulté de généraliser les agents d'apprentissage par renforcement, due au manque de données de contrôle à l'échelle d'Internet. Nous nous concentrons plus particulièrement sur l'apprentissage par renforcement hors ligne et présentons une nouvelle méthodologie appelée optimisation par filtrage de sous-chemins (SFO). SFO résout le « puzzle » en utilisant des sous-chemins plutôt que le chemin entier, utilise le retour visuel du VLM pour générer des signaux de récompense non markoviens et utilise un schéma de réplication des actions de filtrage et de pondération plus simple mais plus efficace que les méthodes complexes basées sur RLHF. En particulier, la réplication des actions de filtrage de sous-chemins (SFBC) améliore la robustesse en intégrant un mécanisme de filtrage rétroactif qui supprime les sous-chemins avant la défaillance.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode (SFO, SFBC) pour intégrer efficacement le retour d'information de l'IA dans l'apprentissage par renforcement hors ligne en exploitant les capacités de compréhension d'image de VLM.
Atténuer le « problème d’ajustement des pièces », une limitation de l’apprentissage par renforcement hors ligne existant, en utilisant des sous-chemins.
Utilisation efficace du retour visuel du VLM à l'aide de signaux de récompense non markoviens.
Nous démontrons la supériorité d’une approche de réplication du comportement de filtrage et de pondération simple mais efficace.
Limitations:
Des expériences et des analyses supplémentaires sont nécessaires pour déterminer les performances de généralisation de la méthode proposée.
L’applicabilité à divers environnements et tâches doit être vérifiée.
Des recherches supplémentaires sont nécessaires pour déterminer les paramètres optimaux du mécanisme de filtrage arrière.
ÉTant donné qu’il repose sur les commentaires du VLM, il est possible qu’il soit limité par les performances du VLM.
👍