Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment

Created by
  • Haebom

저자

Pouria Mortezaagha, Arya Rahgozar

개요

본 논문은 체계적 문헌 고찰(SR)에서 주요 병목 현상인 전문 스크리닝을 해결하기 위해 퍼지 논리 기반의 확장 가능하고 감사 가능한 파이프라인을 제시한다. 기존의 이분법적 포함/제외 기준 대신, 포함/제외를 퍼지 의사결정 문제로 재구성하여, 문헌을 중복되는 청크로 나누고 도메인 적응 모델로 임베딩한다. 각 기준(Population, Intervention, Outcome, Study Approach)에 대해 대조적 유사도(포함-제외 코사인)와 모호성 여유를 계산하고, Mamdani 퍼지 컨트롤러를 사용하여 다중 레이블 설정에서 동적 임계값을 갖는 등급화된 포함 정도로 매핑한다. 대규모 언어 모델(LLM)은 강조 표시된 구간을 3차 레이블, 신뢰도 점수 및 기준 참조 근거와 함께 판정하며, 증거가 불충분한 경우 제외하는 대신 퍼지 멤버십을 감소시킨다. POPCORN(비전염성 질환을 위한 인구 건강 모델링 합의 보고 네트워크)의 긍정적 골드셋(16개 전문; 3,208개 청크)을 대상으로 한 파일럿 연구에서 제안된 퍼지 시스템은 높은 재현율(Population 81.3%, Intervention 87.5%, Outcome 87.5%, Study Approach 75.0%)을 달성하여 통계적 및 명확한 기준선을 능가했다. 모든 기준 충족에 따른 논문 포함률은 50.0%로 기준선(25.0%, 12.5%)보다 높았으며, 스크리닝 시간은 약 20분에서 1분 미만으로 단축되었고 비용도 크게 절감되었다. 결론적으로 퍼지 논리, 대조적 강조 표시 및 LLM 판정을 결합한 시스템은 높은 재현율, 안정적인 근거 및 종단 간 추적성을 제공한다.

시사점, 한계점

시사점:
체계적 문헌 고찰의 전문 스크리닝 과정을 효율화하고 정확도를 높일 수 있는 새로운 방법 제시.
퍼지 논리와 LLM을 활용하여 불확실성을 효과적으로 처리하고 높은 재현율 달성.
스크리닝 시간 및 비용을 획기적으로 절감.
높은 모델 간 합의도 및 사람-기계 합의도 달성.
종단 간 추적성 확보를 통한 감사 가능성 향상.
한계점:
파일럿 연구의 샘플 크기가 작음 (16개 전문).
모든 긍정적 골드셋만을 사용한 제한적인 평가.
실제 다양한 유형의 문헌에 대한 일반화 가능성 검증 필요.
도메인 적응 모델의 일반화 성능 및 한계에 대한 추가 연구 필요.
퍼지 논리 매개변수 최적화에 대한 추가 연구 필요.
👍