Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CUPID : Évaluation de l'alignement personnalisé et contextualisé des LLM issus des interactions

Created by
  • Haebom

Auteur

Tae Soo Kim, Yoonjoo Lee, Yoonah Park, Jiho Kim, Young-Ho Kim, Juho Kim

Contour

Cet article met en évidence les limites des approches existantes de personnalisation des modèles linguistiques à grande échelle (MLH). En effet, les préférences des utilisateurs sont statiques et cohérentes d'une tâche à l'autre, et les préférences réelles évoluent dynamiquement selon les contextes. Pour évaluer ce phénomène, nous présentons le benchmark CUPID, composé de 756 enregistrements de sessions d'interaction entre utilisateurs et assistants de chat basés sur les LHH. Lors de chaque session d'interaction, l'utilisateur formule une requête dans un contexte spécifique et exprime ses préférences par le biais de plusieurs cycles de feedback. Le benchmark CUPID prend en compte une nouvelle requête utilisateur et les sessions d'interaction précédentes pour évaluer si le LHH peut déduire les préférences associées à cette requête et générer une réponse qui les satisfait. Notre évaluation de dix LHH open source et propriétaires révèle que même les LHH les plus performants peinent à déduire les préférences de multiples interactions et à identifier les contextes antérieurs pertinents pour une nouvelle requête (avec une précision inférieure à 50 % et un rappel inférieur à 65 %). Cette étude souligne la nécessité d'améliorer les capacités des LHH pour des interactions contextuelles et personnalisées, et propose CUPID comme ressource pour ces améliorations.

Takeaways, Limitations

Takeaways:
Souligne la nécessité de capacités d’interaction personnalisées améliorées et adaptées au contexte du LLM.
Nous présentons CUPID, une nouvelle référence pour évaluer les capacités de connaissance de la situation et d'inférence des préférences des LLM.
Nous démontrons empiriquement que les LLM de pointe n’ont pas la capacité de déduire les préférences situationnelles et d’identifier les situations pertinentes.
Limitations:
La nécessité d’étendre davantage la taille de la référence CUPID (756 sessions) à l’avenir.
La nécessité de refléter de manière plus complète les divers types d’utilisateurs et de situations.
Les types de LLM évalués peuvent être limités.
👍