Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Breaking the Reviewer: Assessing the Vulnerability of Large Language Models in Automated Peer Review Under Textual Adversarial Attacks

Created by
  • Haebom

作者

Tzu-Ling Lin, Wei-Chih Chen, Teng-Fang Hsiao, Hou-I Liu, Ya-Hsin Yeh, Yu Kai Chan, Wen-Sheng Lien, Po-Yen Kuo, Philip S. Yu, Hong-Han Shuai

概要

学術的品質を維持するために不可欠なピアレビュー過程で提出件数の増加によりレビューアの負担が加重されている。大規模言語モデル(LLM)はこのプロセスを支援することができますが、テキストベースの敵対的攻撃に対して脆弱で信頼性の問題が発生します。この論文は、この攻撃にさらされた自動化されたレビューアとして使用されるLLMの堅牢性を調査します。主な質問は、(1)LLMが人間のレビューアと比較してどのように効果的にレビューを生成するか、(2)敵対的攻撃がLLMで生成されたレビューの信頼性に与える影響、(3)LLMベースのレビューの問題、および潜在的な緩和戦略です。評価の結果、テキスト操作がLLMの評価を歪める可能性があるという重要な脆弱性が発見されました。この研究は、自動化されたピアレビューでLLMパフォーマンスの包括的な評価を提供し、敵対攻撃に対するロバスト性を分析します。

Takeaways、Limitations

LLMベースの自動化ピアレビューシステムの潜在的な利点とテキスト操作に対する脆弱性の確認
敵対攻撃がL​​LMで生成されたレビューの信頼性に及ぼす悪影響を実証
LLMベースのレビューシステムの堅牢性を向上させるためのさらなる研究と緩和戦略の必要性を強調
論文における具体的な攻撃タイプと緩和戦略の提示不足
実際の学術環境におけるシステムの適用に関する具体的なシナリオと考慮事項の欠如
特定のLLMモデルとベンチマークデータの限定的な評価
👍