본 논문은 대규모 사전 훈련된 단일 모드 NMT 시스템에 이미지 특징을 추가했을 때 고자원 환경에서 이미지 정보가 번역에 미치는 영향을 조사합니다. 놀랍게도 이미지가 중복될 수 있다는 점을 발견하였으며, 합성 노이즈를 도입하여 이미지가 텍스트 노이즈 처리에 도움이 되는지 평가했습니다. 영어에서 힌디어, 벵골어, 말라얄람어로의 번역 실험을 통해 최첨단 벤치마크를 상당히 능가하는 성능을 달성했습니다. 시각적 맥락의 효과는 소스 텍스트 노이즈 수준에 따라 다르며, 노이즈가 없는 번역에는 시각적 맥락이 없는 것이 가장 좋고, 낮은 노이즈에는 잘린 이미지 특징이, 높은 노이즈 환경에서는 전체 이미지 특징이 더 나은 성능을 보였습니다. 이는 특히 노이즈가 있는 환경에서 시각적 맥락의 역할을 밝히고 다중 모드 설정에서 노이즈가 있는 신경 기계 번역에 대한 새로운 연구 방향을 제시합니다. 다양한 환경에서 번역을 개선하기 위해 시각 및 텍스트 정보를 결합하는 것이 중요함을 강조합니다.