Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuation des LLM sur les prévisions du monde réel par rapport aux prévisionnistes experts

작성자
  • Haebom

Auteur

Janna Lu

Contour

Cet article évalue la puissance prédictive des modèles linguistiques à grande échelle (MLH) les plus récents. À l'aide de 464 questions de prédiction de Metaculus, nous avons comparé les performances des LHH à celles des principaux prédicteurs et des groupes d'experts. Les résultats montrent que, si les modèles les plus récents obtiennent de meilleurs scores Brier que les groupes humains, ils restent significativement en retrait par rapport aux groupes d'experts. Si les LHH n'étaient pas en mesure d'approcher la précision humaine jusqu'à l'année dernière, les modèles récents démontrent des progrès significatifs.

Takeaways, Limitations

Takeaways:
Les LLM de pointe démontrent des avancées significatives en matière de capacités prédictives.
Les performances prédictives du LLM peuvent surpasser celles des populations humaines, mais restent inférieures à celles des populations d’experts.
Des recherches supplémentaires sont nécessaires pour améliorer le pouvoir prédictif du LLM.
Limitations:
Les limites de l’ensemble de données utilisé dans l’étude soulèvent des questions sur la généralisabilité.
Il y a un manque d’analyse des causes profondes des différences de performance avec le groupe d’experts.
Des recherches supplémentaires sont nécessaires sur la fiabilité prédictive et l’interprétabilité du LLM.
👍