Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions

Created by
  • Haebom

作者

Weijie Xu, Shixian Cui, Xi Fang, Chi Xue, Stephanie Eckman, Chandan K. Reddy

概要

大規模な言語モデル(LLM)は単一の正解選択肢問題で主に評価されますが、実際の世界の多くの問題は、さまざまな選択肢ですべての正解を見つける必要があります。これらの能力は十分に調査されていません。本論文では、読解理解、法律、生物医学など、さまざまな分野でLLMの「すべて選ぶ(SATA)」問題評価のための最初の専用ベンチマークであるSATA-BENCHを紹介します。 27のオープンソースモデルと独自モデルを評価したところ、最も強力なモデルでさえも正確に一致することが41.8%に過ぎず、LLMがすべての正解を確実に識別するのが難しいことを示しています。これらの弱点は、2つの重要な問題、つまり内容に関係なく、特定の選択肢を好む選択偏向と正解数を予測できない数偏向によるものです。この問題を解決するために、トークンのデバイアスと適応しきい値を組み合わせて、モデルが完全かつ正確な選択を可能にするデコード戦略であるChoice Funnelを提案します。 Choice Funnelは、競争ベースラインよりも最大29%高い精度マッチングを達成しながら、推論コストを64%以上削減します。本研究では、現在LLMの根本的な限界を明らかにし、現実的なマルチレスポンスアプリケーションで強力な意思決定のためのLLM開発を奨励するためにSATA-BENCHとChoice Funnelを公開しています。

Takeaways、Limitations

Takeaways:
SATA-BENCHは、LLMの多重正解推論能力を評価するための新しいベンチマークを提供します。
LLMはSATA問題において深刻な困難を経験し、特に選択偏向及び数偏向問題がある。
Choice Funnelデコード戦略はSATAのトラブルシューティングに有効であり、精度を向上させ、推論コストを削減します。
本研究は現実的な多重応答応用におけるLLMの発展を促進する。
Limitations:
評価に使用されるモデルの範囲は限られている可能性があります。
Choice Funnelのパフォーマンスは、他の種類の問題やドメインへの一般化の可能性をさらに検証する必要があります。
本研究は、モデルの根本的な理解力の欠如を完全に解決することができないかもしれません。
👍