본 논문은 과학 출판의 핵심인 피어 리뷰의 불일치, 주관성 및 확장성 문제를 해결하기 위해 AI 기반 피어 리뷰를 연구하고 배포하는 모듈형 프레임워크인 ReviewerToo를 소개한다. ReviewerToo는 전문화된 리뷰어 페르소나와 구조화된 평가 기준을 사용하여 체계적인 실험을 지원하며, 실제 컨퍼런스 워크플로우에 부분적으로 또는 완전히 통합될 수 있다. ICLR 2025의 1,963개의 논문을 엄선한 데이터셋을 사용하여 gpt-oss-120b 모델로 실험한 결과, 논문의 수락/거절 분류 정확도가 81.8%로 나타났으며, 이는 평균적인 인간 리뷰어의 83.9%에 근접한 수치이다. 또한, ReviewerToo가 생성한 리뷰는 LLM 평가에 의해 인간 평균보다 높은 품질로 평가되었지만, 최고 수준의 전문가 기고에는 미치지 못했다. AI 리뷰어의 강점(예: 사실 확인, 문헌 포함)과 약점(예: 방법론적 참신성, 이론적 기여 평가)을 분석하여, AI를 피어 리뷰 파이프라인에 통합하기 위한 지침을 제안한다.