저자들은 저자원 언어의 코드 혼합 입력 처리 시 기계 번역 시스템의 실패 문제를 해결하기 위해, 자연 발생적인 코드 혼합 베트남어 텍스트와 전문가가 번역한 영어 텍스트를 짝지은 병렬 말뭉치인 VietMix를 제작했습니다. 이 자원을 보강하기 위해 구문적 타당성과 실용적 적절성을 보장하는 필터링 메커니즘을 통합한 보완적인 합성 데이터 생성 파이프라인을 개발했습니다. 실험 결과, 자연어 데이터와 합성 데이터를 함께 사용한 모델이 COMETkiwi 기준 최대 71.84, XCOMET 기준 최대 81.77의 번역 품질 향상을 보였습니다. LLM 기반 평가를 통해서도 증강된 모델이 초기 미세 조정된 모델보다 약 49% (무승부 제외 시 54-56%) 더 선호되는 것으로 나타났습니다. VietMix와 증강 방법론은 신경망 기계 번역 평가의 생태학적 타당성을 높이고, 다른 저자원 언어 쌍의 코드 혼합 번역 문제를 해결하기 위한 프레임워크를 구축합니다.