Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making

Created by
  • Haebom

저자

Yihan Wang, Qiao Yan, Zhenghao Xing, Lihao Liu, Junjun He, Chi-Wing Fu, Xiaowei Hu, Pheng-Ann Heng

개요

대규모 언어 모델(LLM)은 임상 질문 응답에서 강력한 잠재력을 보여주었고, 최근 다중 에이전트 프레임워크는 협업 추론을 통해 진단 정확도를 더욱 향상시켰습니다. 그러나 본 연구는 특히 복잡하거나 모호한 경우에 에이전트가 충분한 비판적 분석 없이 조기에 진단에 수렴하는 침묵 합의(Silent Agreement)라는 반복적인 문제를 확인했습니다. 본 연구는 구조화된 반대 의견을 제시하고 침묵 합의에 대응하도록 설계된 역할 특화 LLM인 Catfish Agent라는 새로운 개념을 제시합니다. 조직 심리학의 "메기 효과"에서 영감을 받은 Catfish Agent는 심층적인 추론을 자극하기 위해 등장하는 합의에 이의를 제기하도록 설계되었습니다. 본 연구는 효과적이고 맥락을 고려한 개입을 장려하기 위한 두 가지 메커니즘을 제시합니다. (i) 사례의 어려움에 따라 에이전트 참여를 조절하는 복잡도 인식 개입, (ii) 비판과 협업의 균형을 맞추도록 표현된 어조 조정 개입입니다. 9개의 의료 Q&A 벤치마크와 3개의 의료 VQA 벤치마크에 대한 평가 결과, 제시된 접근 방식이 GPT-4o 및 DeepSeek-R1과 같은 주요 상용 모델을 포함한 단일 및 다중 에이전트 LLM 프레임워크를 일관되게 능가하는 것으로 나타났습니다.

시사점, 한계점

시사점: 다중 에이전트 LLM 기반 의료 질문 응답 시스템의 정확도 향상에 기여하는 새로운 접근 방식인 Catfish Agent를 제시. 복잡도 인식 및 어조 조정 메커니즘을 통해 침묵 합의 문제를 해결하고, GPT-4o 및 DeepSeek-R1과 같은 최첨단 모델을 능가하는 성능을 달성. 의료 진단 및 질문 응답 시스템의 성능 향상에 대한 새로운 가능성 제시.
한계점: 현재 제시된 벤치마크 데이터셋의 범위가 제한적일 수 있음. 실제 임상 환경에서의 일반화 성능에 대한 추가 연구 필요. Catfish Agent의 효과에 영향을 미칠 수 있는 다양한 요인들(예: 에이전트 간의 상호 작용의 복잡성, 데이터셋의 편향 등)에 대한 추가적인 분석이 필요함. Catfish Agent의 구현 및 적용에 대한 비용 및 자원 소모에 대한 고려 필요.
👍