본 논문은 의료 영상 이해와 자연어 처리의 교차점에 있는 의료 시각 질의응답(MedVQA)에 대해 다룹니다. 최근 접근 방식들이 대규모 사전 훈련된 시각-언어 모델에 크게 의존하는 가운데, 본 논문에서는 효율적인 융합 메커니즘에 대한 연구가 상대적으로 제한적임을 지적합니다. 이에 따라, 직교성 손실, 다중 헤드 어텐션, 이차 어텐션 네트워크를 통합한 OMniBAN이라는 융합 모델을 제시합니다. OMniBAN은 높은 계산 효율성과 견고한 성능을 달성하며, 이차 어텐션 융합이 크로스-모달 트랜스포머와 같은 더 큰 융합 모델의 성능에 근사할 수 있음을 실험을 통해 보여줍니다. OMniBAN은 트랜스포머 기반 공동 어텐션보다 약 2/3 적은 파라미터와 약 1/4 적은 FLOPs를 사용하면서, 비슷하거나 약간 나은 성능을 보였습니다. 특히 폐쇄형 질문에 대해서는 더 나은 성능을 보였습니다. 이는 계산 자원이 제한적인 실제 의료 영상 질의응답 환경에 적합한 모델임을 시사합니다.