Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach

Created by
  • Haebom

作者

Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li

概要

この論文は、大規模言語モデル(LLM)の特定のドメイン能力を評価するためのベンチマーク構築の効率性と有効性を高めることに焦点を当てています。従来のドメイン特化ベンチマークは、主にスケーリング法則に依存し、膨大なコーパスを用いた指導学習の微調整や広範な質問セットの生成に依存してきました。しかし、コーパスと質問 - 回答(QA)セットデザインがドメイン特化LLMの精度と再現率に与える影響はまだ探求されていません。本稿では、これらのギャップを解決し、特定のドメインでベンチマークを構築するためのスケーリング法則が常に最適な原則ではないことを示しています。代わりに、包括性 - 圧縮性の原則に基づく反復的なベンチマークフレームワークであるComp-Compを提案します。ここで、包括性はドメインの意味的な再現率を保証し、圧縮性は精度を向上させ、コーパスとQAセットの構築を導きます。このフレームワークの有効性を検証するために、著名な大学を対象にケーススタディを実施し、大規模で包括的な閉鎖ドメインベンチマークであるXUBenchを作成しました。この研究では学術分野を例に取り上げましたが、Comp-Compフレームワークは学界を超えてさまざまなドメインでベンチマークを構築するための貴重な洞察を提供するように設計されています。

Takeaways、Limitations

Takeaways:特定のドメインLLMのベンチマーク構築におけるスケーリング法則にのみ頼ることが最善ではないことを示し、包括性 - 圧縮性原則に基づく新しいフレームワークであるComp-Compを提案することによって、より効果的で効率的なベンチマーク構築方法を提示します。 XUBenchという実際の事例により、Comp-Compフレームワークの実用性を実証します。さまざまなドメインに拡張可能なフレームワークを提供します。
Limitations:現在まで、学術分野の1つのケーススタディのみが提示されています。他のドメインでのComp-Compフレームワークの一般化の可能性に関するさらなる研究が必要です。 XUBenchの具体的な構成とパフォーマンス指標の詳細は不足しています。
👍