Sign In

CMI-MTL: Cross-Mamba interaction based multi-task learning for medical visual question answering

Created by
  • Haebom
Category
Empty

저자

Qiangguo Jin, Xianyao Zheng, Hui Cui, Changming Sun, Yuqi Fang, Cong Cong, Ran Su, Leyi Wei, Ping Xuan, Junbo Wang

개요

의료 영상 질의응답 (Med-VQA)은 임상 의사 결정 지원 및 원격 의료 분야에서 중요한 멀티모달 태스크입니다. 본 논문에서는 시각 및 언어 간의 교차 모달 의미 정렬을 효과적으로 처리하고, 자유 형식 답변의 다양성에 적응하며, 상세한 의미 정보를 고려하는 데 어려움을 겪는 기존 방법의 한계를 해결하기 위해 Cross-Mamba Interaction 기반 Multi-Task Learning (CMI-MTL) 프레임워크를 제안합니다. CMI-MTL은 미세 입자 시각-텍스트 특징 정렬 (FVTA), 교차 모달 인터리브 특징 표현 (CIFR), 그리고 자유 형식 답변 기반 멀티태스크 학습 (FFAE)의 세 가지 핵심 모듈로 구성됩니다. FVTA는 이미지-텍스트 쌍에서 가장 관련성이 높은 영역을 추출하고, CIFR은 교차 모달 순차적 상호 작용을 캡처하며, FFAE는 개방형 질문에 대한 보조 지식을 활용하여 개방형 Med-VQA 성능을 향상시킵니다. 실험 결과는 CMI-MTL이 VQA-RAD, SLAKE, OVQA의 세 가지 Med-VQA 데이터셋에서 기존 최고 성능의 방법들을 능가함을 보여줍니다.

시사점, 한계점

시사점:
Med-VQA 문제 해결을 위한 새로운 프레임워크인 CMI-MTL 제안.
미세 입자 시각-텍스트 특징 정렬, 교차 모달 인터리브 특징 표현, 자유 형식 답변 기반 멀티태스크 학습 모듈을 통해 기존 방법의 한계 극복.
세 가지 Med-VQA 데이터셋에서 SOTA 달성.
해석 가능성 실험을 통해 효과 입증.
코드 공개.
한계점:
논문에 구체적인 한계점에 대한 언급 없음. (하지만, 미래 연구를 위한 잠재적 영역 존재 가능)
👍