Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025
Created by
Haebom
저자
Nitya Thakkar, Mert Yuksekgonul, Jake Silberg, Animesh Garg, Nanyun Peng, Fei Sha, Rose Yu, Carl Vondrick, James Zou
개요
본 논문은 AI 학회의 급증하는 제출 건수로 인해 어려움을 겪는 동료 심사 과정을 개선하기 위해 개발된 'Review Feedback Agent' 시스템을 소개합니다. 이 시스템은 여러 대규모 언어 모델(LLM)을 활용하여 모호한 코멘트, 내용 오류, 비전문적인 발언 등에 대한 자동화된 피드백을 심사자에게 제공함으로써 심사의 명확성과 실행 가능성을 높입니다. ICLR 2025에서 2만 건 이상의 심사에 대한 무작위 대조 연구를 통해 시스템을 구현하였으며, LLM 기반의 자동 신뢰성 테스트를 통해 피드백의 품질을 보장했습니다. 결과적으로 피드백을 받은 심사자의 27%가 심사 내용을 수정했으며, 12,000건 이상의 피드백 제안이 반영되었습니다. AI 피드백 통합은 심사의 길이와 정보성을 향상시켰으며, 저자와 심사자 간의 상호작용도 증가시켰습니다. 본 연구는 신중하게 설계된 LLM 기반 피드백이 동료 심사의 질을 향상시킬 수 있음을 보여줍니다. 시스템은 깃허브에서 공개적으로 이용 가능합니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델을 활용하여 동료 심사의 질을 향상시킬 수 있음을 보여줌.
◦
모호하거나 비전문적인 심사 피드백을 개선하여 심사의 명확성과 실행 가능성을 높임.
◦
AI 피드백을 통해 심사의 길이와 정보성이 증가하고, 저자와 심사자 간의 상호작용이 증진됨.
◦
개발된 시스템이 공개적으로 이용 가능하여 다른 학회에서도 활용 가능.
•
한계점:
◦
연구의 대상이 ICLR 2025 한 학회에 국한됨. 다른 학회나 분야에 적용했을 때의 일반화 가능성에 대한 추가 연구 필요.