Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Eye of Judgement: Dissecting the Evaluation of Russian-speaking LLMs with POLLUX

Created by
  • Haebom

作者

Nikita Martynov, Anastasia Mordasheva, Dmitriy Gorbetskiy, Danil Astafurov, Ulyana Isaeva, Elina Basyrova, Sergey Skachkov, Victoria Berestova, Nikolay Ivanov, Valeriia Zanina, Alena Fenogenova

概要

POLLUXは、ロシア語向けの大規模言語モデル(LLM)の生成能力を評価するように設計された包括的なオープンソースベンチマークです。主な貢献は、LLM評価の解釈力を高める新しい評価方法論です。各作業タイプに対して詳細な基準セットを定義し、モデルが応答を評価し、評価の根拠を提供するスコアリングプロトコルを開発しました。これにより、既存の資源消耗的な、並べて比較する方式の人間比較を超えて透明で基準中心的な評価が可能となります。 POLLUXには、コード生成、作成、実用的な助手のユースケースなど、さまざまな生成領域をカバーする35種類の種類の細分化された分類システムがあり、合計2,100の手作業で作成され、専門的に作成されたプロンプトが含​​まれています。各作業は難易度(簡単/中/難)に分類され、専門家が最初からデータセットを構築しました。また、生成出力の微妙な評価のために訓練されたLLM-as-a-Judge(7Bおよび32B)評価者のセットを公開します。このアプローチは、スケーラブルで解釈可能な評価および注釈ツールをモデル開発に提供し、コストが高く精度が低い人間の判断を効果的に置き換えます。

Takeaways、Limitations

Takeaways:
ロシア語LLMの生成能力を評価するための包括的でオープンソースのベンチマークを提供。
解釈の可能性を高める新しい評価方法論の提示(LLM-as-a-Judgeの利用)
従来の人間評価方式より効率的でスケーラブルな評価システムの構築
さまざまなタスクタイプと難易度を含む豊富なデータセットを提供します。
Limitations:
現在はロシア語に限られたベンチマーク。他の言語サポートかどうかは未確認。
LLM-as-a-Judgeの性能と信頼性をさらに検証する必要性
評価基準の客観性と公平性に関する議論の必要性
2100のプロンプトは、大規模LLM評価に十分であるかどうかについてのさらなる研究が必要です。
👍