Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Task Arithmetic for Language Expansion in Speech Translation

Created by
  • Haebom

저자

Yao-Fei Cheng, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, Wen Shen Teo, Siddhant Arora, Shinji Watanabe

개요

본 논문은 기존의 일대일 음성-텍스트 번역(ST) 시스템을 기반으로, 재훈련 없이 다국어 음성-텍스트 번역 시스템을 구축하는 방법을 제시합니다. 기존의 작업 산술(task arithmetic) 방법을 직접 적용하면 언어 혼동이 발생하므로, 언어 제어 모델을 통합한 증강된 작업 산술 방법을 제안합니다. 이 방법은 MuST-C와 CoVoST-2 데이터셋에서 BLEU 점수를 최대 4.66 및 4.92 향상시키고, COMET 점수를 8.87 및 11.83 향상시키는 결과를 보였습니다. 또한, 기존의 기계 번역(MT) 및 ST 모델을 기반으로 ST 모델을 합성하여, 쌍으로 된 ST 훈련 데이터나 사전 훈련된 ST 모델이 없는 언어 쌍으로도 확장 가능함을 보여줍니다.

시사점, 한계점

시사점:
재훈련 없이 다국어 음성-텍스트 번역 시스템 구축 가능성 제시
기존 일대일 ST 시스템을 활용하여 효율적인 다국어 지원 가능
쌍으로 된 ST 훈련 데이터가 부족한 언어 쌍에도 적용 가능
작업 산술과 언어 제어 모델 결합을 통한 성능 향상 확인
한계점:
제안된 방법의 성능은 기존 일대일 ST 시스템의 성능에 의존적일 수 있음.
언어 제어 모델의 성능이 전체 시스템 성능에 큰 영향을 미칠 수 있음.
다양한 언어 쌍과 데이터셋에 대한 추가적인 실험이 필요함.
합성된 ST 모델의 성능이 실제 훈련된 모델에 비해 낮을 가능성 존재.
👍