Text-Speech Language Models with Improved Cross-Modal Transfer by Aligning Abstraction Levels
Created by
Haebom
Category
Empty
저자
Santiago Cuervo, Adel Moumen, Yanis Labrak, Sameer Khurana, Antoine Laurent, Mickael Rouvier, Ricard Marxer
개요
본 논문은 텍스트와 음성을 함께 처리하고 생성하도록 훈련된 텍스트-음성 언어 모델(TSLM)에 대해 다룹니다. 기존의 TSLM 훈련 방식은 사전 훈련된 텍스트 LM의 어휘에 음성을 위한 새로운 임베딩과 선형 투영을 추가하고 음성 데이터로 미세 조정하는 방식을 사용하지만, 이는 추상화 수준의 정렬을 고려하지 않아 교차 모달 전이를 제한한다는 가설을 세웁니다. 따라서 본 논문에서는 계층 간 추상화 수준을 더 잘 정렬하는 모듈을 어휘 확장에 추가하는 방법을 제안합니다. 제안된 모델인 \textsc{SmolTolk}는 훨씬 더 많은 연산량으로 훈련된 최첨단 TSLM과 비슷하거나 뛰어넘는 성능을 보이며, 표현 분석과 향상된 다중 모달 성능은 제안된 방법이 교차 모달 전이를 향상시킨다는 것을 시사합니다.
시사점, 한계점
•
시사점:
◦
계층 간 추상화 수준 정렬 모듈 추가를 통해 기존 TSLM의 한계점인 교차 모달 전이 제한 문제를 효과적으로 해결.
◦
훨씬 적은 연산량으로 최첨단 TSLM과 비슷하거나 더 나은 성능 달성.
◦
표현 분석 및 향상된 다중 모달 성능을 통해 제안 방법의 효과성 검증.
•
한계점:
◦
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
◦
다양한 음성 데이터셋에 대한 실험 결과 제시 필요.
◦
\textsc{SmolTolk} 모델의 구체적인 구조 및 하이퍼파라미터에 대한 상세한 설명 부족 가능성.