Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Contrôle de l'alignement temporel de l'inférence pour les modèles de diffusion avec guidage par apprentissage par renforcement

Created by
  • Haebom

Auteur

Luozhijie Jin, Zijie Qiu, Jie Liu, Zijie Diao, Lifeng Qiao, Ning Ding, Alex Lamb, Xipeng Qiu

Contour

Cet article s'appuie sur les acquis des modèles génératifs basés sur le débruitage, notamment les algorithmes de diffusion et d'appariement de flux, pour relever les défis de l'alignement de la distribution de sortie des modèles génératifs avec des sous-objectifs complexes tels que la préférence humaine, la précision compositionnelle et le taux de compression des données. Pour surmonter les limites des méthodes de réglage fin de l'apprentissage par renforcement (RL) existantes, nous réinterprétons le réglage fin de l'RL pour les modèles de diffusion en termes d'équations différentielles stochastiques et de conditionnement de récompense implicite. Nous présentons le guidage par l'apprentissage par renforcement (RLG), une méthode d'inférence qui combine les sorties d'un modèle de base et d'un modèle affiné par RL par des moyens géométriques et applique un guidage sans classificateur (CFG). L'analyse théorique démontre que la métrique de guidage du RLG est mathématiquement équivalente à l'ajustement du coefficient de régularisation KL dans les objectifs RL standard, permettant un contrôle dynamique des compromis alignement-qualité sans formation supplémentaire. Des expériences approfondies démontrent que le RLG améliore systématiquement les performances des modèles RL affinés sur une variété d'architectures, d'algorithmes RL et de sous-tâches (notamment les préférences humaines, le contrôle compositionnel, le taux de compression et le rendu de texte). De plus, le RLG prend en charge l'interpolation et l'extrapolation, offrant une flexibilité sans précédent dans le contrôle de l'alignement génératif. En conclusion, cet article présente une solution pratique et théoriquement solide pour améliorer et contrôler l'alignement des modèles de diffusion lors de l'inférence.

Takeaways, Limitations_

Takeaways:
Nous présentons RLG, une nouvelle méthode de réglage fin RL des modèles de diffusion.
RLG combine les sorties du modèle de base et du modèle RL affiné à l'aide de la moyenne géométrique au moment de l'inférence, permettant un contrôle dynamique de la force d'alignement sans formation supplémentaire.
Améliorez les performances des modèles de réglage fin RL sur diverses sous-tâches, notamment les préférences humaines, le contrôle de la composition, le taux de compression et le rendu de texte.
Flexibilité accrue dans le contrôle de l'alignement des générations en prenant en charge l'interpolation et l'extrapolation.
L’efficacité du RLG est prouvée mathématiquement par une analyse théorique.
Divulgation du code source.
Limitations:
Les performances de RLG présentées dans cet article sont basées sur des résultats expérimentaux pour des ensembles de données et des tâches spécifiques, et des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation pour d'autres ensembles de données ou tâches.
Le coût de calcul du RLG peut être plus élevé que celui des méthodes conventionnelles.
La stratégie optimale d’ajustement de l’échelle d’orientation du RLG peut être encore améliorée grâce à des recherches plus poussées.
👍