[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les grands modèles de langage savent souvent quand ils sont évalués

Created by
  • Haebom

Auteur

Joe Needham, Giles Edkins, Govind Pimpale, Henning Bartsch, Marius Hobbhahn

Contour

Cet article examine la capacité des modèles linguistiques de pointe à détecter qu'ils sont évalués, ou « sensibilisation à l'évaluation ». À l'aide de divers benchmarks composés de 1 000 invites et transcriptions collectées à partir de 61 ensembles de données différents, nous démontrons que les modèles peuvent classer avec précision les transcriptions d'évaluation à partir de transcriptions réelles. Nos expériences montrent que les modèles de pointe sont capables de mieux reconnaître les évaluations que les évaluations aléatoires (Gemini-2.5-Pro atteint une AUC de 0,83), mais sont inférieurs à la référence humaine (AUC de 0,92). Les modèles et les humains sont plus performants pour identifier les évaluations dans les contextes d'agent que dans les contextes conversationnels, et les modèles sont également performants pour identifier l'objectif de l'évaluation. En conclusion, les modèles de pointe présentent un niveau significatif de sensibilisation à l'évaluation, bien qu'ils ne soient pas encore de niveau humain, et nous encourageons le suivi de cette capacité dans les futurs modèles.

Takeaways, Limitations_

Takeaways: En révélant que les modèles linguistiques de pointe sont conscients de leur environnement d'évaluation, nous soulevons des questions sur la fiabilité de l'évaluation des modèles et encourageons à repenser les futures méthodes de développement et d'évaluation des modèles. Nous soulignons l'importance de suivre la capacité du modèle à prendre conscience de l'évaluation. Sa capacité à comprendre l'objectif de l'évaluation est également confirmée.
Limitations: La capacité de reconnaissance d'évaluation du modèle actuel n'est pas comparable à celle d'un humain. Des recherches supplémentaires sont nécessaires pour déterminer l'impact de l'amélioration de la capacité de reconnaissance d'évaluation sur la fiabilité et la sécurité du modèle. Un examen plus approfondi de la généralisabilité des critères de référence utilisés est nécessaire.
👍