Vision-Language Models (VLMs)의 의료 진단 적용 시, 언어적 유창성과 이미지 증거 간의 괴리로 인한 신뢰 저하 문제를 해결하기 위해, UCAgents라는 계층적 다중 에이전트 프레임워크를 제안합니다. UCAgents는 임상 워크플로우에서 영감을 받아, 에이전트 간의 일방향적이고 구조화된 증거 검증을 통해 시각적 신호 추출을 강화하고 텍스트 노이즈를 억제합니다. UCAgents는 의료 VQA 벤치마크에서 기존 SOTA 대비 향상된 정확도와 낮은 토큰 비용을 달성하여 진단 신뢰성과 계산 효율성을 입증합니다.