VIDA: A dataset for Visually Dependent Ambiguity in Multimodal Machine Translation

Author

Haebom

저자

Jingheng Pan, Xintong Wang, Longyue Wang, Liang Ding, Weihua Luo, Chris Biemann

💡 개요

본 논문은 멀티모달 기계 번역(MMT)에서 시각 정보에 의존적인 모호성 해결이라는 중요한 과제를 해결하기 위한 새로운 데이터셋인 VIDA를 제안한다. 기존 벤치마크의 한계를 극복하고자 2,500개의 신중하게 선별된 샘플을 통해 시각 증거가 필요한 모호한 표현 해결에 초점을 맞췄으며, LLM을 활용한 새로운 평가 지표를 통해 모호성 해결의 정확성을 검증한다. 실험 결과, CoT-SFT(Chain-of-Thought Supervised Fine-Tuning)가 다양한 유형의 모호성에 대한 일반화 성능을 향상시키는 것으로 나타났다.

🔑 시사점 및 한계

•

MMT에서 시각 정보의 중요성을 강조하며, 실제 번역에서 발생하는 모호성 해결에 대한 데이터셋 부족 문제를 해결한다.

•

LLM을 평가자로 활용하는 새로운 평가 지표는 모호성 해결의 span 수준 정확성을 더 정밀하게 측정할 수 있다.

•

Chain-of-Thought 방식의 미세 조정이 모호성 해결 능력을 향상시켜 다양한 종류의 모호성에 대한 모델의 일반화 성능을 높일 수 있음을 시사한다.

•

VIDA 데이터셋의 크기가 2,500개 인스턴스로 제한적이며, 실제 복잡하고 다양한 실제 환경에서의 모호성 해결을 완전히 반영하기에는 부족할 수 있다.

PDF 보기

Made with Slashpage