Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Breaking the Reviewer: Assessing the Vulnerability of Large Language Models in Automated Peer Review Under Textual Adversarial Attacks

Created by
  • Haebom

저자

Tzu-Ling Lin, Wei-Chih Chen, Teng-Fang Hsiao, Hou-I Liu, Ya-Hsin Yeh, Yu Kai Chan, Wen-Sheng Lien, Po-Yen Kuo, Philip S. Yu, Hong-Han Shuai

개요

학술적 품질 유지를 위해 필수적인 피어 리뷰 과정에서 제출 건수 증가로 인해 리뷰어의 부담이 가중되고 있다. 대규모 언어 모델(LLM)은 이 과정에 도움을 줄 수 있지만, 텍스트 기반 적대적 공격에 취약하여 신뢰성 문제가 제기된다. 본 논문은 이러한 공격에 노출된 자동화된 리뷰어로서 사용되는 LLM의 견고성을 조사한다. 주요 질문은 (1) LLM이 인간 리뷰어와 비교하여 얼마나 효과적으로 리뷰를 생성하는지, (2) 적대적 공격이 LLM으로 생성된 리뷰의 신뢰성에 미치는 영향, (3) LLM 기반 리뷰의 문제점 및 잠재적 완화 전략이다. 평가 결과, 텍스트 조작이 LLM의 평가를 왜곡할 수 있다는 중요한 취약점이 발견되었다. 본 연구는 자동화된 피어 리뷰에서 LLM 성능에 대한 포괄적인 평가를 제공하고, 적대적 공격에 대한 견고성을 분석한다.

시사점, 한계점

LLM 기반 자동화된 피어 리뷰 시스템의 잠재적 이점과, 텍스트 조작에 대한 취약성 확인
적대적 공격이 LLM으로 생성된 리뷰의 신뢰성에 미치는 부정적인 영향 입증
LLM 기반 리뷰 시스템의 견고성 향상을 위한 추가 연구 및 완화 전략의 필요성 강조
논문에서 구체적인 공격 유형 및 완화 전략 제시 부족
실제 학술 환경에서의 시스템 적용에 대한 구체적인 시나리오 및 고려 사항 부족
특정 LLM 모델 및 벤치마크 데이터에 대한 제한적인 평가
👍