동료 검토 과정에서 PRISMA 2020 가이드라인 준수 여부를 평가하는 것은 여전히 어려운 과제입니다. 공유 가능한 벤치마크의 부재를 해결하기 위해, 저작권에 문제가 없는 108개의 Creative Commons 라이선스 체계적 문헌고찰을 구축하고, 5가지 입력 형식에 대해 10개의 대규모 언어 모델(LLM)을 평가했습니다. 구조화된 PRISMA 2020 체크리스트(Markdown, JSON, XML 또는 일반 텍스트)를 제공한 경우 개발 코호트에서 78.7-79.7%의 정확도를 보였으며, 원고만 입력한 경우 45.21%의 정확도를 보였습니다(p < 0.0001). 구조화된 형식 간에는 차이가 없었습니다(p > 0.9). 모델 전체의 정확도는 70.6-82.8%였으며, 서로 다른 민감도-특이도 트레이드 오프가 나타났고, 이는 독립적인 검증 코호트에서 재현되었습니다. 그런 다음 Qwen3-Max(높은 민감도의 오픈 웨이트 모델)를 선택하여 전체 데이터 세트(n=120)에 대한 평가를 확장하여 95.1%의 민감도와 49.3%의 특이도를 달성했습니다. 구조화된 체크리스트 제공은 LLM 기반 PRISMA 평가를 상당히 개선했지만, 편집 결정 전에 인간 전문가의 검증은 여전히 필수적입니다.