MedAgentAudit: Diagnosing and Quantifying Collaborative Failure Modes in Medical Multi-Agent Systems
Author
Haebom
Category
Empty
저자
Lei Gu, Yinghao Zhu, Haoran Sang, Zixiang Wang, Dehao Sui, Wen Tang, Ewen Harrison, Junyi Gao, Lequan Yu, Liantao Ma
개요
대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템을 사용한 의료 상담 시뮬레이션의 평가가 최종 답변 정확도에만 국한되어 있다는 문제점을 지적하며, 추론 과정의 투명성 부족으로 인한 신뢰성 문제를 제기한다. 6개의 의료 데이터 세트와 6개의 멀티 에이전트 프레임워크를 사용하여 3,600개의 사례에 대한 대규모 연구를 수행하고, 협업 실패 모드에 대한 포괄적인 분류 체계를 개발한다. 정량적 감사를 통해 공유 모델의 결함, 소수의견 억압, 비효율적인 토론, 정보 손실 등 4가지 주요 실패 패턴을 발견했다. 본 연구는 높은 정확도만으로는 임상적 또는 공공의 신뢰를 얻기에 충분하지 않으며, 투명하고 감사 가능한 추론 과정의 필요성을 강조한다.
시사점, 한계점
•
시사점:
◦
LLM 기반 멀티 에이전트 시스템의 의료 분야 적용 시, 최종 답변 정확도 외에 추론 과정의 투명성과 감사 가능성을 확보하는 것이 중요함을 강조.
◦
협업 실패 모드에 대한 분류 체계 개발을 통해 시스템의 취약점을 파악하고 개선 방안을 제시.