Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Large language models for automated PRISMA 2020 adherence checking

Created by
  • Haebom
Category
Empty

저자

Yuki Kataoka, Ryuhei So, Masahiro Banno, Yasushi Tsujimoto, Tomohiro Takayama, Yosuke Yamagishi, Takahiro Tsuge, Norio Yamamoto, Chiaki Suda, Toshi A. Furukawa

PRISMA 2020 가이드라인 준수 평가를 위한 LLM 벤치마크

개요

동료 검토 과정에서 PRISMA 2020 가이드라인 준수 여부를 평가하는 것은 여전히 어려운 과제입니다. 공유 가능한 벤치마크의 부재를 해결하기 위해, 저작권에 문제가 없는 108개의 Creative Commons 라이선스 체계적 문헌고찰을 구축하고, 5가지 입력 형식에 대해 10개의 대규모 언어 모델(LLM)을 평가했습니다. 구조화된 PRISMA 2020 체크리스트(Markdown, JSON, XML 또는 일반 텍스트)를 제공한 경우 개발 코호트에서 78.7-79.7%의 정확도를 보였으며, 원고만 입력한 경우 45.21%의 정확도를 보였습니다(p < 0.0001). 구조화된 형식 간에는 차이가 없었습니다(p > 0.9). 모델 전체의 정확도는 70.6-82.8%였으며, 서로 다른 민감도-특이도 트레이드 오프가 나타났고, 이는 독립적인 검증 코호트에서 재현되었습니다. 그런 다음 Qwen3-Max(높은 민감도의 오픈 웨이트 모델)를 선택하여 전체 데이터 세트(n=120)에 대한 평가를 확장하여 95.1%의 민감도와 49.3%의 특이도를 달성했습니다. 구조화된 체크리스트 제공은 LLM 기반 PRISMA 평가를 상당히 개선했지만, 편집 결정 전에 인간 전문가의 검증은 여전히 필수적입니다.

시사점, 한계점

구조화된 PRISMA 2020 체크리스트를 LLM에 제공하는 것은 원고만 제공하는 것보다 훨씬 높은 정확도로 평가를 수행하게 합니다.
다양한 LLM 모델 간에 민감도와 특이도의 트레이드 오프가 존재합니다.
Qwen3-Max 모델은 높은 민감도를 보이며, PRISMA 가이드라인 준수 평가에 유용할 수 있습니다.
LLM 기반 평가의 정확성을 높이기 위해 구조화된 데이터 입력 형식이 중요합니다.
LLM을 사용한 자동 평가는 전문가 검토를 완전히 대체할 수 없으며, 편집 결정 전에 인간 전문가의 확인이 필요합니다.
특이도가 낮아 불필요한 검토를 유발할 수 있습니다.
👍