Large Language Models Powered Multiagent Ensemble for Mitigating Hallucination and Efficient Atrial Fibrillation Annotation of ECG Reports
Created by
Haebom
저자
Jingwei Huang, Kuroush Nezafati, Ismael Villanueva-Miranda, Zifan Gu, Yueshuang Xu, Ann Marie Navar, Tingyi Wanyan, Qin Zhou, Bo Yao, Ruichen Rong, Xiaowei Zhan, Guanghua Xiao, Eric D. Peterson, Donghan M. Yang, Wenqi Shi, Yang Xie
개요
본 연구는 대규모 EHR 데이터셋에서 환각 및 데이터 라벨링 문제를 해결하기 위해 LLM 기반 다중 에이전트 앙상블 방법을 제시한다. 수동 라벨링은 전문성과 많은 시간, 비용, 노력을 필요로 하며 오류가 발생하기 쉽다. 이를 극복하기 위해 다양한 오픈소스 LLM을 활용한 앙상블 방법을 개발하여 MIMIC-IV의 대규모 ECG 데이터셋 라벨링과 EHR 진료 기록에서 사회적 건강 결정 요인(SDOH) 식별이라는 두 가지 실제 과제에 적용하였다. 각 LLM의 예측을 투표로 간주하고 최소 승리 임계값을 적용하는 다수결 투표 메커니즘을 사용한다. MIMIC-IV ECG 데이터셋 (623,566개 ECG 보고서) 라벨링에서 약 98.2%의 정확도를 달성하였고, 1,405개 EHR 진료 기록의 사회력 부분에서 SDOH 식별에도 경쟁력 있는 성능을 보였다. 앙상블 LLM은 개별 LLM, 심지어 최고의 상용 LLM보다 성능이 우수하며 환각 오류를 줄이는 것으로 나타났다.
시사점, 한계점
•
시사점:
◦
대규모 EHR 데이터 라벨링에 필요한 시간과 노력을 크게 줄이고, 높은 정확도와 품질로 자동화된 프로세스를 제공한다.
◦
SDOH 식별 적용 사례에서 보듯이 다른 텍스트 데이터 라벨링 작업에도 잘 일반화된다.
◦
다양한 LLM들의 앙상블은 최고의 개별 LLM의 성능을 능가하거나 동등한 성능을 보일 수 있다.
◦
앙상블 방법은 환각 오류를 상당히 줄인다.
◦
확장 가능하고 효율적인 데이터 라벨링 솔루션을 제공한다.
•
한계점:
◦
본 연구에서 제시된 한계점에 대한 명시적인 언급이 논문에 없다. (추가 분석 또는 다른 연구를 통해 확인 필요)