Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EigenBench : une mesure comportementale comparative de l'alignement des valeurs

Created by
  • Haebom

Auteur

Jonathn Chang, Leonhard Piff, Suvadip Sana, Jasmine X_. Li, Lionel Levine

Contour

EigenBench est une nouvelle méthodologie d'analyse comparative permettant de résoudre le problème d'alignement des valeurs en IA. Pour pallier le manque de mesures quantitatives existantes, elle propose une approche boîte noire qui évalue comparativement le niveau d'alignement des valeurs entre différents modèles de langage. Elle prend en entrée un ensemble de modèles, une constitution décrivant le système de valeurs et un jeu de données de scénarios, et génère un score vectoriel quantifiant l'alignement de chaque modèle avec la constitution donnée. Chaque modèle évalue les résultats des autres modèles selon différents scénarios, et l'algorithme EigenTrust agrège ces évaluations pour produire un score reflétant le jugement moyen pondéré de l'ensemble. Elle est conçue pour quantifier des caractéristiques susceptibles de varier, même entre juges rationnels, sans s'appuyer sur des étiquettes de bonnes réponses. Des expériences utilisant des personas d'invite pour tester la sensibilité des scores EigenBench aux modèles ou aux invites ont révélé que si la majeure partie de la variance s'explique par les invites, de faibles résidus quantifient les biais inhérents aux modèles eux-mêmes.

Takeaways, Limitations_

Takeaways:
Une nouvelle méthode pour mesurer quantitativement l’alignement des valeurs de l’IA.
Adoption d'une approche de type boîte noire qui ne repose pas sur les étiquettes de réponses correctes existantes
Suggérant la possibilité de mesurer la propension à la valeur du modèle lui-même
Limitations:
L’influence de l’invite semble être plus grande que celle du modèle (ce qui soulève des questions sur la précision de la mesure de la propension à la valeur du modèle lui-même).
La nature de l’algorithme EigenTrust peut rendre difficile l’interprétation des résultats.
La généralisabilité doit être vérifiée dans différents systèmes de valeurs et scénarios.
👍