본 논문은 다양한 의료 전문 분야에 걸쳐 일반화하는 데 어려움을 겪는 기존의 단일 에이전트 의료 대규모 시각-언어 모델(Med-LVLM)의 한계를 해결하기 위해, 강화 학습(RL) 기반의 다중 에이전트 프레임워크인 MMedAgent-RL을 제안합니다. MMedAgent-RL은 환자를 적절한 전문 분야에 배정하는 분류 의사와 다양한 전문가의 판단과 자체 지식을 통합하여 최종 결정을 내리는 주치의, 두 가지의 일반의(GP) 에이전트를 Qwen2.5-VL을 기반으로 RL을 통해 학습시킵니다. 특히, 전문가 출력의 불일치 문제를 해결하기 위해, 주치의가 전문가 모방과 실수 수정 사이의 균형을 점진적으로 학습하도록 하는 커리큘럼 학습(CL) 기반 RL 전략을 도입합니다. 다섯 가지 의료 VQA 벤치마크에 대한 실험 결과, MMedAgent-RL은 오픈소스 및 독점 Med-LVLM을 능가하며, 인간과 유사한 추론 패턴을 보이는 것으로 나타났습니다. 특히, 지도 학습 기반 미세 조정 기준 모델 대비 평균 18.4%의 성능 향상을 달성했습니다.
시사점, 한계점
•
시사점:
◦
강화학습 기반 다중 에이전트 협업을 통해 의료 영상 및 언어 데이터 분석의 정확도와 일반화 성능을 향상시킬 수 있음을 보여줌.
◦
커리큘럼 학습을 활용하여 다양한 전문가의 의견 불일치 문제를 효과적으로 해결 가능함을 제시.
◦
기존 단일 에이전트 모델보다 우수한 성능과 인간과 유사한 추론 패턴을 보임.
◦
의료 분야에서 다중 에이전트 시스템의 활용 가능성을 제시.
•
한계점:
◦
현재 사용된 모델이 특정한 언어 모델(Qwen2.5-VL)에 의존적임. 다른 언어 모델로의 확장성 검증 필요.
◦
다양한 의료 데이터셋에 대한 실험 결과가 제한적임. 더 광범위한 데이터셋을 활용한 추가 연구 필요.