Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CycleDistill: Bootstrapping Machine Translation using LLMs with Cyclical Distillation

Created by
  • Haebom

저자

Deepon Halder, Thanmay Jayakumar, Raj Dabre

개요

본 논문은 저자원 언어에 대한 고품질 기계 번역 시스템 구축을 위한 새로운 부트스트래핑 접근 방식인 CycleDistill을 제안합니다. CycleDistill은 대규모 언어 모델(LLM)과 소수 샷 번역을 활용하여 단일 언어 말뭉치로부터 합성 평행 말뭉치를 반복적으로 생성하고, 이를 통해 생성된 데이터로 모델을 미세 조정하는 방식입니다. 평행 말뭉치가 1~4개의 소수 샷 예제만 필요하며, 세 가지 인도 언어를 대상으로 한 실험에서 단일 언어 말뭉치만으로도 고품질 기계 번역을 달성하여, 소수 샷 기준 모델에 비해 첫 번째 반복에서 평균 20-30 chrF 포인트 이상 향상을 보였습니다. 또한, 증류 과정에서 소프트맥스 활성화를 활용하는 효과를 연구하여 번역 품질의 약간의 향상을 관찰했습니다.

시사점, 한계점

시사점:
저자원 언어에 대한 고품질 기계 번역 시스템 개발을 위한 효과적인 부트스트래핑 방법 제시.
소량의 데이터만으로도 높은 성능을 달성할 수 있음을 보여줌.
단일 언어 말뭉치만을 사용하여 평행 말뭉치 생성 및 모델 학습 가능성 제시.
소프트맥스 활성화를 활용한 증류 과정의 효과 확인.
한계점:
제시된 방법론의 다른 저자원 언어 및 다양한 언어 쌍에 대한 일반화 가능성에 대한 추가 연구 필요.
합성 평행 말뭉치의 품질이 최종 번역 성능에 미치는 영향에 대한 심층적인 분석 필요.
사용된 LLM의 종류 및 크기가 결과에 미치는 영향에 대한 추가적인 실험 필요.
chrF 점수 외 다른 평가 지표를 활용한 성능 평가 필요.
👍