본 논문은 과학 문헌 분석을 위한 AI 방법이 문장의 수사적 역할(연구 공백, 결과, 한계, 기존 방법론의 확장 등)에 따른 주석을 통해 상당한 이점을 얻는다는 선행 연구를 바탕으로, 고품질 문헌 검토를 생성할 수 있는 새로운 시스템 개발을 위한 주석 체계 및 대규모 주석 전략을 제시합니다. 이를 위해, 문헌 검토 생성을 지원하도록 특별히 설계된 새로운 주석 체계를 도입하고, 다양한 최첨단 대규모 언어 모델(LLM)을 사용하여 이 체계에 따른 수사적 역할 분류를 포괄적으로 평가합니다. 또한, 도메인 전문가가 수동으로 주석을 단 700개의 문장과 LLM을 사용하여 자동으로 레이블이 지정된 2,240개의 문장으로 구성된 새로운 다학제적 벤치마크인 Sci-Sentence를 제시합니다. 37개의 LLM을 제로샷 학습 및 미세 조정 접근 방식을 사용하여 평가하며, 고품질 데이터로 미세 조정되었을 때 현재 세대의 LLM이 이 작업에서 96% 이상의 F1 성능을 달성하는 등 여러 가지 새로운 통찰력을 제공합니다. 또한, GPT-4o와 같은 대규모 독점 모델이 최상의 결과를 얻지만, 일부 경량 오픈소스 대안도 우수한 성능을 보이며, LLM이 생성한 반합성 예제로 훈련 데이터를 풍부하게 하면 소규모 인코더가 견고한 결과를 얻고 여러 오픈 디코더 모델의 성능을 크게 향상시키는 것으로 나타났습니다.