Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Comment puis-je publier mon benchmark LLM sans divulguer les vraies réponses ?

Created by
  • Haebom

Auteur

Takashi Ishida, Thanawat Lodkaew, Ikko Yamane

Contour

Cet article soulève le risque de contamination des LLM lors de la publication en ligne de benchmarks de modèles de langage à grande échelle (LLM) et propose une nouvelle méthode pour y remédier. Les approches de benchmarks fermés existantes posent des problèmes de confiance et de surapprentissage en raison de requêtes répétées. Cet article propose une méthode permettant d'évaluer publiquement les LLM sans divulguer intégralement les réponses correctes aux questions. L'idée principale est de préparer plusieurs réponses logiquement correctes et d'en inclure une seule comme réponse correcte dans le benchmark. Cette approche réduit la précision bayésienne du benchmark, prévient les fuites de vérité terrain et fournit un test de détection de la contamination des données. Les résultats expérimentaux démontrent que la méthode proposée permet de détecter avec précision la contamination des données sur une variété de benchmarks, de modèles et de méthodes d'apprentissage.

Takeaways, Limitations

Takeaways:
Présentation d'une solution efficace au problème de contamination des données causé par la divulgation des repères LLM sur Internet.
Une technique de détection de contamination des données utilisant la précision bayésienne est proposée.
Présentation d’une nouvelle stratégie de conception de référence qui équilibre l’évaluation publique et la protection des données.
Limitations:
L’efficacité de la méthode proposée peut varier selon les différents critères de référence, modèles et méthodes de formation, et des recherches supplémentaires sont nécessaires pour déterminer sa généralisabilité.
Le processus de préparation de plusieurs réponses qui pourraient logiquement être correctes peut nécessiter des efforts considérables.
Tous les cas dépassant la précision bayésienne ne peuvent pas être attribués à une contamination des données, et d’autres facteurs peuvent également être impliqués.
👍