Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLM4SCREENLIT: Recommendations on Assessing the Performance of Large Language Models for Screening Literature in Systematic Reviews

Created by
  • Haebom
Category
Empty

저자

Lech Madeyski, Barbara Kitchenham, Martin Shepperd

개요

본 논문은 대규모 언어 모델(LLM)의 빠른 출시 속도에 비해 엄격한 평가가 부족한 현실을 지적하며, 특히 체계적 문헌고찰(SR)에서 관련 문헌 선택 시 LLM 성능 평가의 주요 과제를 식별하고 논의합니다. 전통적인 지표 사용의 문제점을 분석하고, 우수한 평가 방식을 제시하며, 연구자, 실무자, 정책 입안자를 위한 권고안을 제안합니다.

시사점, 한계점

시사점:
체계적 문헌고찰(SR)에서 문헌 선정을 위한 LLM 평가 시, 불균형 데이터에 강건하고 우연 이상의 결과를 나타내는 지표(예: WMCC)를 우선시해야 합니다.
작업량 절감 주장의 근거로 증거 손실의 영향을 고려해야 합니다.
향후 메타 분석을 위해 전체 혼동 행렬(또는 재구성 가능한 성능 지표)을 보고해야 합니다.
손실된 증거/재현율과 WMCC 지표를 우선적으로 고려해야 합니다.
분류할 수 없는 출력값을 긍정적으로 간주해야 합니다.
비 LLM 기준선과 공개된 아티팩트를 사용하여 누출 방지 설계를 채택해야 합니다.
FN(거짓 음성)이 FP(거짓 양성)보다 더 큰 페널티를 갖는 비용 편익 분석을 기반으로 결론을 내려야 합니다.
한계점:
정확도(Accuracy)와 같은 지표는 불균형 데이터에 취약하며, 우연에 의한 결과보다 나은지를 직접적으로 나타내지 못합니다.
전체 혼동 행렬 보고의 부족은 향후 메타 분석을 어렵게 만듭니다.
작업량 절감에 대한 주장에서 증거 손실의 영향이 고려되지 않는 경우가 많습니다.
👍