Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Improving Your Model Ranking on Chatbot Arena by Vote Rigging

Created by
  • Haebom

作者

Rui Min, Tianyu Pang, Chao Du, Qian Liu, Minhao Cheng, Min Lin

概要

Chatbot Arenaは、ユーザーが2つの匿名モデルの応答のうち、好みの応答を投票する方法で大規模言語モデル(LLM)を評価するプラットフォームです。本論文は,クラウドソーシング投票を操作して,特定のモデルのランキングを人為的に上げ下げできることを示した。まず、特定のモデルにのみ集中して投票する単純な操作戦略を紹介し、この戦略の非効率性を指摘します。これを克服するために、Chatbot ArenaのElo評価メカニズムを使用して、特定のモデルと直接関連していない対決にも投票を操作し、ランキングに影響を与える全方位操作戦略を提案します。 170万件の既存の投票データを使用した実験は、数百件の新しい投票でさえ、全方位操作戦略がモデルの順位を改善できることを示しています。いくつかの防御メカニズムを評価しましたが、投票操作防止努力の重要性を強調しています。

Takeaways、Limitations

Takeaways: Chatbot ArenaなどのクラウドソーシングベースのLLM評価プラットフォームの脆弱性を示しています。全方位操作戦略により、比較的少ない投票操作でもモデル順位を大きく変化させることができることを証明。 LLM評価プラットフォームの信頼性を確保するための投票操作防止技術の開発の重要性を強調した。
Limitations:提案された防御メカニズムの効果の詳細な分析の欠如。さまざまな種類の操作戦略の包括的な分析の欠如実際のChatbot Arenaシステムへの直接操作の試みではなく、既存のデータ分析に基づく研究です。特定の操作戦略の成功率に影響を与える要因(例えば、投票者の参加度、モデルの特性など)の詳細な分析の欠如。
👍