본 논문은 학술 연구의 급증과 전문 심사자 부족 문제를 해결하기 위해, 대규모 언어 모델(LLM)을 활용한 동료 심사 자동화에 대한 연구를 제시한다. 현존하는 LLM의 한계점인 피상적인 비평, 환각 현상, 실행 가능한 통찰력 부족을 해결하고자, 인간 평가와의 일치도, 사실 정확성, 분석 심도, 실행 가능한 통찰력을 측정하는 포괄적인 AI 생성 심사 평가 프레임워크를 제안한다. 또한, 각 학회 및 저널의 고유한 평가 기준에 맞춰 LLM 생성 심사를 조정하는 새로운 정렬 메커니즘과, LLM의 심사 프롬프트를 반복적으로 최적화하는 자기 개선 루프를 제시하여 AI 기반 심사 시스템의 신뢰성을 높이고자 한다. 이는 AI 생성 심사의 품질 향상과 표준화된 평가 지표 제공을 목표로 한다.