본 논문은 멀티모달 기계 번역(MMT)에서 시각 정보에 의존적인 모호성 해결이라는 중요한 과제를 해결하기 위한 새로운 데이터셋인 VIDA를 제안한다. 기존 벤치마크의 한계를 극복하고자 2,500개의 신중하게 선별된 샘플을 통해 시각 증거가 필요한 모호한 표현 해결에 초점을 맞췄으며, LLM을 활용한 새로운 평가 지표를 통해 모호성 해결의 정확성을 검증한다. 실험 결과, CoT-SFT(Chain-of-Thought Supervised Fine-Tuning)가 다양한 유형의 모호성에 대한 일반화 성능을 향상시키는 것으로 나타났다.