LLM4SCREENLIT: Recommendations on Assessing the Performance of Large Language Models for Screening Literature in Systematic Reviews
Created by
Haebom
Category
Empty
저자
Lech Madeyski, Barbara Kitchenham, Martin Shepperd
개요
본 논문은 대규모 언어 모델(LLM)의 빠른 출시 속도에 비해 엄격한 평가가 부족한 현실을 지적하며, 특히 체계적 문헌고찰(SR)에서 관련 문헌 선택 시 LLM 성능 평가의 주요 과제를 식별하고 논의합니다. 전통적인 지표 사용의 문제점을 분석하고, 우수한 평가 방식을 제시하며, 연구자, 실무자, 정책 입안자를 위한 권고안을 제안합니다.
시사점, 한계점
•
시사점:
◦
체계적 문헌고찰(SR)에서 문헌 선정을 위한 LLM 평가 시, 불균형 데이터에 강건하고 우연 이상의 결과를 나타내는 지표(예: WMCC)를 우선시해야 합니다.
◦
작업량 절감 주장의 근거로 증거 손실의 영향을 고려해야 합니다.
◦
향후 메타 분석을 위해 전체 혼동 행렬(또는 재구성 가능한 성능 지표)을 보고해야 합니다.
◦
손실된 증거/재현율과 WMCC 지표를 우선적으로 고려해야 합니다.
◦
분류할 수 없는 출력값을 긍정적으로 간주해야 합니다.
◦
비 LLM 기준선과 공개된 아티팩트를 사용하여 누출 방지 설계를 채택해야 합니다.
◦
FN(거짓 음성)이 FP(거짓 양성)보다 더 큰 페널티를 갖는 비용 편익 분석을 기반으로 결론을 내려야 합니다.
•
한계점:
◦
정확도(Accuracy)와 같은 지표는 불균형 데이터에 취약하며, 우연에 의한 결과보다 나은지를 직접적으로 나타내지 못합니다.