의료 영상 질의응답 (Med-VQA)은 임상 의사 결정 지원 및 원격 의료 분야에서 중요한 멀티모달 태스크입니다. 본 논문에서는 시각 및 언어 간의 교차 모달 의미 정렬을 효과적으로 처리하고, 자유 형식 답변의 다양성에 적응하며, 상세한 의미 정보를 고려하는 데 어려움을 겪는 기존 방법의 한계를 해결하기 위해 Cross-Mamba Interaction 기반 Multi-Task Learning (CMI-MTL) 프레임워크를 제안합니다. CMI-MTL은 미세 입자 시각-텍스트 특징 정렬 (FVTA), 교차 모달 인터리브 특징 표현 (CIFR), 그리고 자유 형식 답변 기반 멀티태스크 학습 (FFAE)의 세 가지 핵심 모듈로 구성됩니다. FVTA는 이미지-텍스트 쌍에서 가장 관련성이 높은 영역을 추출하고, CIFR은 교차 모달 순차적 상호 작용을 캡처하며, FFAE는 개방형 질문에 대한 보조 지식을 활용하여 개방형 Med-VQA 성능을 향상시킵니다. 실험 결과는 CMI-MTL이 VQA-RAD, SLAKE, OVQA의 세 가지 Med-VQA 데이터셋에서 기존 최고 성능의 방법들을 능가함을 보여줍니다.