Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models

Created by
  • Haebom

저자

Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong, Kasima Tharnpipitchai, Kunat Pipatanakul

개요

본 논문은 저자원 언어인 태국어에 대한 오디오 언어 모델의 성능을 평가하고, 이를 개선하기 위한 데이터 혼합 전략을 제시합니다. 기존의 다국어 사전 훈련된 오디오 언어 모델은 영어 중심으로 학습되어 다른 언어에 대한 성능이 떨어지는 한계를 지니고 있습니다. 본 연구는 오디오 이해와 음성 지시 따르기를 통합한 모델을 개발하여 태국어와 영어에 대한 성능을 동시에 향상시키는 데이터 혼합 방법을 실험적으로 검증합니다. 그 결과, 제안된 모델인 Typhoon-Audio는 기존 오픈소스 모델들을 상당히 능가하며, 영어 및 태국어 모두에서 최첨단 모델인 Gemini-1.5-Pro와 비슷한 성능을 달성합니다. 본 논문은 저자원 언어에서의 지시 따르기 성능 향상을 위한 언어 특정 데이터와 다국어 데이터의 균형있는 사용에 대한 통찰력을 제공합니다.

시사점, 한계점

시사점:
저자원 언어(태국어)에서의 오디오 언어 모델 성능 향상을 위한 효과적인 데이터 혼합 전략 제시
오디오 이해와 음성 지시 따르기를 통합한 모델의 우수성 검증
Typhoon-Audio 모델이 기존 오픈소스 모델 대비 성능 향상 및 Gemini-1.5-Pro 수준의 성능 달성
저자원 언어 학습을 위한 언어 특정 데이터와 다국어 데이터의 균형있는 활용에 대한 중요성 강조
한계점:
연구가 특정 저자원 언어(태국어)에 집중되어 다른 저자원 언어로의 일반화 가능성에 대한 추가 연구 필요
Typhoon-Audio 모델의 성능 비교 대상이 제한적일 수 있음 (Gemini-1.5-Pro와의 비교만 제시)
데이터 혼합 전략의 최적 비율 등 세부적인 매개변수 조정에 대한 추가 연구 필요
👍