Breaking the Reviewer: Assessing the Vulnerability of Large Language Models in Automated Peer Review Under Textual Adversarial Attacks
Created by
Haebom
저자
Tzu-Ling Lin, Wei-Chih Chen, Teng-Fang Hsiao, Hou-I Liu, Ya-Hsin Yeh, Yu Kai Chan, Wen-Sheng Lien, Po-Yen Kuo, Philip S. Yu, Hong-Han Shuai
개요
학술적 품질 유지를 위해 필수적인 피어 리뷰 과정에서 제출 건수 증가로 인해 리뷰어의 부담이 가중되고 있다. 대규모 언어 모델(LLM)은 이 과정에 도움을 줄 수 있지만, 텍스트 기반 적대적 공격에 취약하여 신뢰성 문제가 제기된다. 본 논문은 이러한 공격에 노출된 자동화된 리뷰어로서 사용되는 LLM의 견고성을 조사한다. 주요 질문은 (1) LLM이 인간 리뷰어와 비교하여 얼마나 효과적으로 리뷰를 생성하는지, (2) 적대적 공격이 LLM으로 생성된 리뷰의 신뢰성에 미치는 영향, (3) LLM 기반 리뷰의 문제점 및 잠재적 완화 전략이다. 평가 결과, 텍스트 조작이 LLM의 평가를 왜곡할 수 있다는 중요한 취약점이 발견되었다. 본 연구는 자동화된 피어 리뷰에서 LLM 성능에 대한 포괄적인 평가를 제공하고, 적대적 공격에 대한 견고성을 분석한다.