Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Judging with Many Minds: Do More Perspectives Mean Less Prejudice? On Bias Amplifications and Resistance in Multi-Agent Based LLM-as-Judge

Created by
  • Haebom

作者

Chiyu Ma, Enpei Zhang, Yilun Zhao, Wenjun Liu, Yaning Jia, Peijun Qing, Lin Shi, Arman Cohan, Yujun Yan, Soroush Vosoughi

概要

本稿では、大規模言語モデル(LLM)を評価者として活用するマルチエージェントシステムの偏りの問題を分析します。具体的には、位置偏向、詳細度偏向、思考過程偏向、および世論偏向の4つの種類の偏向を、マルチエージェント論争(Multi-Agent-Debate)とLLM-as-Meta-Judgeの2つのフレームワークで評価します。実験の結果、議論フレームワークは、最初の議論後の偏向が大幅に増幅され持続するのに対し、メタ評価者のアプローチは偏向に対する抵抗力が大きいことを示しました。また、単一エージェント偏向緩和技術であるPINEを統合した結果、議論設定では偏向を効果的に低減するが、メタ評価者シナリオでは効果が少ないことが確認された。この研究は、マルチエージェントLLM評価システムにおける偏向行動の包括的な研究を提供し、コラボレーション評価環境での標的化された偏向緩和戦略の必要性を強調します。

Takeaways、Limitations

Takeaways:
マルチエージェントLLM-as-Judgeシステムでさまざまな種類のバイアスがどのように見えるかについての体系的な分析を提供します。
議論フレームワークとメタ評価者フレームワークの偏向抵抗の違いを明らかにします。
単一エージェント偏向緩和技術のマルチエージェントシステム適用効果を評価し,その限界を提示した。
コラボレーション評価環境での標的化された偏向緩和戦略の開発の必要性を強調します。
Limitations:
分析された偏向の種類は4つに限定されます。
評価に使用されるLLMとデータセットの特性が結果に影響を与える可能性があります。
PINEを含む単一エージェント偏向緩和技術の一般化の可能性に関するさらなる研究が必要である。
さまざまなマルチエージェントLLM-as-Judgeフレームワークに関する追加の研究が必要です。
👍