본 논문은 생의학 영상 질의응답(Biomedical VQA)의 성능 향상을 위해 새로운 Dual-level Semantic Consistency Constraint Framework인 BioD2C를 제안합니다. 기존 모델들이 대규모 언어 모델(LLM) 내에서 모델 수준에서만 다중 모달 정보 상호작용을 수행하여 복잡한 작업에서 최적의 다중 모달 의미 정렬을 달성하지 못하는 문제를 해결하기 위해, BioD2C는 모델 수준과 특징 수준 모두에서 이중 수준의 의미 상호작용 정렬을 달성합니다. 이는 이미지-텍스트 융합 메커니즘을 통해 텍스트에 조건화된 시각적 특징을 얻고, 텍스트-큐 기반의 교차 모달 소프트 의미 손실 함수를 도입하여 이미지 의미와 질문 의미를 더욱 정렬함으로써 모델이 질문에 따라 시각적 특징을 적응적으로 학습할 수 있도록 합니다. 또한, 기존 데이터셋의 고유한 편향을 해결하기 위해 새로운 데이터셋 BioVGQ를 구축하여 모델을 훈련시켰습니다. 실험 결과, BioD2C는 여러 하위 데이터셋에서 최첨단(SOTA) 성능을 달성하여 강건성, 일반화 성능 및 생의학 VQA 연구 발전 가능성을 보여줍니다.