Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Affiner-POI : Renforcement des modèles linguistiques volumineux affinés pour la recommandation du prochain point d'intérêt
Created by
Haebom
Auteur
Peibo Li, Shuang Ao, Hao Xue, Yang Song, Maarten de Rijke, Johan Barth elemy, Tomasz Bednarz, Flora D. Salim
Contour
Cet article traite de l'application des modèles de langage à grande échelle (MLL) à la recommandation du point d'intérêt suivant (POI). Les systèmes de recommandation existants basés sur les LLM se divisent en modèles basés sur les invites et en modèles basés sur le réglage fin supervisé (SFT). Le modèle basé sur les invites offre une grande flexibilité de sortie mais une faible précision, tandis que le modèle basé sur le SFT est performant, mais présente un problème fondamental : les données de recommandation du point d'intérêt suivant ne sont pas adaptées au SFT. Le SFT apprend à reproduire la vérité terrain exacte, mais chaque exemple d'apprentissage ne fournit qu'un seul POI cible ; il n'existe donc pas de vérité terrain pour générer la liste des k tops. Pour résoudre ce problème, cet article propose Refine-POI, un cadre de réglage fin par apprentissage par renforcement. Refine-POI introduit des récompenses basées sur les recommandations afin que le LLM puisse apprendre à générer la liste des k tops en utilisant un seul POI de vérité terrain par exemple. Les résultats expérimentaux sur des jeux de données réels montrent que Refine-POI atteint des performances de pointe en matière de recommandation des k tops.
Takeaways, Limitations
•
Takeaways:
◦
Nous présentons la possibilité d'améliorer les performances de la recommandation des k meilleurs POI de LLM grâce à un réglage fin basé sur l'apprentissage par renforcement.
◦
Nous présentons une nouvelle méthode pour améliorer les performances de recommandation de LLM en utilisant efficacement des données de vérité de référence limitées.
◦
Atteindre les performances SOTA sur des ensembles de données réels.
•
Limitations:
◦
L'effet de Refine-POI peut être limité à certains ensembles de données ou LLM.
◦
Des recherches supplémentaires sont nécessaires sur la généralisabilité de la conception de récompenses basée sur les recommandations et son applicabilité à d’autres tâches de recommandation.
◦
Manque d’analyse du coût de calcul et du temps de formation.