Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Recommandation explicable avec rétroaction humaine simulée

Created by
  • Haebom

Auteur

Jiakai Tang, Jingsen Zhang, Zihang Tian, Xueyang Feng, Lei Wang, Xu Chen

Contour

Pour pallier les lacunes des systèmes de recommandation explicatifs existants, cet article propose un cadre d'optimisation dynamique des interactions basé sur un feedback de type humain. Ce cadre utilise un modèle de langage à grande échelle (MLL) comme simulateur humain pour prédire le feedback humain et améliore les capacités de compréhension du langage et de raisonnement logique du MLL grâce à une méthode de notation des récompenses personnalisée. De plus, l'optimisation de Pareto est introduite pour résoudre le compromis entre la qualité de l'explication sous différents angles, et un pipeline d'optimisation hors politique est utilisé pour entraîner efficacement le modèle. Les résultats expérimentaux démontrent que la méthode proposée surpasse les méthodes existantes.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre qui peut améliorer les performances des systèmes de recommandation explicables en tirant parti d’un retour d’information de type humain.
Exploitez des modèles linguistiques à grande échelle pour imiter efficacement les commentaires humains et fournir des explications personnalisées.
Considérez simultanément la qualité des explications sous plusieurs angles grâce à l’optimisation de Pareto.
Augmentez l’utilisation des données et améliorez les performances de généralisation des modèles grâce à l’optimisation hors politique.
Limitations:
Cela dépend des performances du LLM, et le biais du LLM peut affecter les résultats.
La conception d’une méthode de notation des récompenses personnalisée par l’utilisateur peut être subjective.
Une validation supplémentaire des performances de généralisation sur divers ensembles de données est nécessaire.
Les coûts de calcul peuvent augmenter pendant le processus d’optimisation de Pareto.
👍