본 논문은 텍스트가 없는 음성-음성 번역(S2ST) 모델의 성공에도 불구하고, 다양한 음성 신호에 대한 언어적 특징 추출(교차 모달, CM)과 긴 시퀀스에서 서로 다른 언어의 정렬 학습(교차 언어, CL)이라는 두 가지 주요 과제가 남아있음을 지적합니다. 이를 해결하기 위해 n-gram 언어 모델을 사용하여 구성된 텍스트와 유사한 표현 형식인 '단위 언어(unit language)'를 제안합니다. 다중 작업 학습을 통해 단위 언어를 음성 모델링 과정에 활용하고, 소스 및 타겟 단위 언어를 동시에 적용할 때 발생하는 충돌을 완화하기 위해 작업 프롬프트 모델링을 제안합니다. Voxpupil 데이터셋의 네 가지 언어에 대한 실험을 통해 제안된 방법이 기존 강력한 기준 모델보다 상당한 성능 향상을 보이며, 텍스트를 사용하여 학습된 모델과 비슷한 성능을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
n-gram 기반 단위 언어를 활용한 S2ST 모델링의 새로운 접근법 제시
◦
다중 작업 학습과 작업 프롬프트 모델링을 통해 CM 및 CL 문제를 효과적으로 해결
◦
텍스트가 없는 S2ST에서 텍스트 기반 모델에 필적하는 성능 달성
•
한계점:
◦
제안된 방법의 효과는 Voxpupil 데이터셋의 네 가지 언어에 대한 실험 결과에 국한됨. 다양한 언어 및 데이터셋에 대한 추가적인 실험이 필요함.
◦
소스와 타겟 단위 언어의 동시 적용 시 발생하는 충돌을 완전히 해결하지 못하고, 작업 프롬프트 모델링을 통해 부분적으로 완화함. 더욱 효과적인 충돌 해결 방법 연구 필요.