Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les masters en droit sont-ils prémonitoires ? Une évaluation continue utilisant l'actualité quotidienne comme oracle

Created by
  • Haebom

Auteur

Hui Dai, Ryan Teehan, Mengye Ren

Contour

Dans cet article, nous proposons une méthode d'évaluation continue pour prédire les événements futurs à partir de l'actualité quotidienne afin de résoudre le problème __T21868__ des tests d'évaluation des modèles de langage à grande échelle (LLM). Nous évaluons la généralisation temporelle et la capacité prédictive du LLM à l'aide de paires question-réponse (QA) générées automatiquement grâce au test « Daily Oracle ». Nos résultats montrent que les performances du LLM se dégradent à mesure que les données de pré-apprentissage vieillissent, et que cette dégradation persiste même en cas de génération de recherche augmentée (RAG), soulignant la nécessité d'une mise à jour continue du modèle. Le code et les données sont disponibles dans __T21867_____ .

Takeaways, Limitations

Takeaways:
Une nouvelle méthode d’évaluation continue est présentée pour évaluer la généralisation temporelle et la capacité prédictive du LLM.
Identifier la corrélation entre l’obsolescence des données de pré-formation et la dégradation des performances du LLM.
Malgré l’utilisation du RAG, la nécessité d’une mise à jour continue du LLM est soulignée.
Présentation de la possibilité d'un suivi continu des performances LLM via Daily Oracle Benchmarks.
Limitations:
Il convient de prendre en compte la stabilité et la maintenance à long terme du Daily Oracle Benchmark.
La vérification de la généralisabilité est nécessaire pour différents types de LLM et d’ensembles de données.
Des recherches supplémentaires sont nécessaires pour maximiser l’efficacité du RAG.
Difficulté à garantir l’objectivité de l’évaluation en raison de l’incertitude des prévisions futures.
👍