본 논문은 의료 환경에서 점점 더 많이 사용되는 다중 에이전트 인공지능 시스템의 구성 요소 최적화와 시스템 전반의 성능 간의 관계를 MIMIC-CDM 데이터셋의 2,400개의 실제 환자 사례(충수염, 췌장염, 담낭염, 게실염 4가지 복부 질환)를 사용하여 평가한 연구입니다. 단일 에이전트 시스템(모든 작업을 수행하는 하나의 모델)과 다중 에이전트 시스템(각 작업에 특화된 모델)을 진단 결과, 프로세스 준수 및 비용 효율성을 포함한 포괄적인 지표를 사용하여 비교 평가했습니다. 그 결과, 다중 에이전트 시스템이 일반적으로 단일 에이전트 시스템보다 성능이 우수했지만, 구성 요소가 최적화되고 프로세스 지표가 우수한(정보 정확도 85.5%) 최고의 단일 에이전트 시스템(Best of Breed)의 진단 정확도(67.7%)가 최고의 다중 에이전트 시스템(77.4%)보다 현저히 낮았다는 역설적인 결과를 발견했습니다.