Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark?

Created by
  • Haebom

作者

Fangchen Yu, Haiyuan Wan, Qianjia Cheng, Yuchen Zhang, Jiacheng Chen, Fujun Han, Yulun Wu, Junchi Yao, Ruilizhen Hu, Ning Ding, Yu Cheng, Tao Chen, Lei Bai, Dongzhan Zhou, Yun Luo, Ganqu Cui, Peng Ye

概要

HiPhOは、高校物理オリンピアードをベースにした最初のベンチマークで、人間との直接的な性能比較を可能にすることを目指しています。 2024年から2025年までの13の最新のオリンピアード試験の問題が含まれており、テキストベースからダイアグラムベースまで、さまざまな種類の問題をカバーしています。人間審査官の採点基準に合わせて正解と解く過程を細分化して採点し、正式なメダル基準に基づいてモデルに金、銀、銅メダルを付与して人間参加者との直接的な比較を可能にします。 30の最先端(M)LLMの大規模な評価の結果、オープンソースMLLMはほとんど銅メダル以下の成績を示し、オープンソースLLMはいくつかの金メダルを獲得し、発展の可能性を示し、クローズドソース推論MLLMは6〜12個の金メダルを獲得したが、依然として満点とは相当。

Takeaways、Limitations

Takeaways:
オープンソースモデルと上位圏の学生の間のパフォーマンスのギャップを明確に示しています。
クローズドソースモデルの強力な推論能力を確認。
(M)LLMの物理的推論能力を向上させるためのさらなる研究の必要性を提示する。
人間とのパフォーマンス比較のための新しいベンチマークを提供。
さまざまな種類の物理問題を含む包括的なデータセットを提供します。
Limitations:
ベンチマークに含まれる問題の数とソースの制限。
モデルの性能評価における人間審査官の主観的な判断の影響
クローズドソースモデルへのアクセス制限による分析の制約
👍