Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HiPhO : Quelle est la distance entre les (M)LLM et les humains dans le dernier benchmark des Olympiades de physique au lycée ?

Created by
  • Haebom

Auteur

Fangchen Yu, Haiyuan Wan, Qianjia Cheng, Yuchen Zhang, Jiacheng Chen, Fujun Han, Yulun Wu, Junchi Yao, Ruilizhen Hu, Ning Ding, Yu Cheng, Tao Chen, Lei Bai, Dongzhan Zhou, Yun Luo, Ganqu Cui, Peng Ye

Contour

Cet article présente HiPhO, un nouveau benchmark basé sur les problèmes des Olympiades de physique au lycée. HiPhO englobe 13 examens récents des Olympiades de 2024-2025, couvrant un large éventail de types de problèmes, des problèmes textuels aux problèmes basés sur des diagrammes. Il évalue les problèmes et les solutions étape par étape, en utilisant des critères de jugement humain, et attribue des médailles d'or, d'argent et de bronze en fonction des performances du modèle, permettant ainsi des comparaisons directes avec les performances des participants humains. Une évaluation de 30 (M)LLMs de pointe révèle que la plupart des MLLMs open source restent en dessous des médailles de bronze, tandis que certains MLLMs open source progressent et obtiennent des médailles d'or. Les MLLMs d'inférence fermée, bien qu'obtenant de 6 à 12 médailles d'or, sont encore loin d'atteindre la perfection.

Takeaways, Limitations

Takeaways:
Présentation de HiPhO, le premier référentiel d’évaluation centré sur l’humain basé sur l’Olympiade de physique du lycée.
Démontre clairement la différence dans les capacités de raisonnement physique entre les modèles open source et fermés.
(M) Présentation d'une nouvelle norme pour améliorer la capacité de raisonnement physique des LLM.
Large gamme d'évaluations possibles, incluant divers types de problèmes de physique.
Les performances du modèle peuvent être directement comparées à celles des participants humains.
Limitations:
Le nombre et le type d’examens de l’Olympiade inclus dans le référentiel peuvent être limités.
Un alignement parfait avec les critères de jugement humains peut s’avérer difficile.
Il n’est pas toujours évident de savoir si l’avantage de performance d’un modèle fermé est dû aux capacités du modèle lui-même ou aux différences d’accessibilité des données et de stratégies d’apprentissage.
Il existe encore un écart important pour atteindre un score parfait.
👍