Sign In

SeaLLMs-Audio: Large Audio-Language Models for Southeast Asia

Created by
  • Haebom
Category
Empty

저자

Chaoqun Liu, Mahani Aljunied, Guizhen Chen, Hou Pong Chan, Weiwen Xu, Yu Rong, Wenxuan Zhang

SeaLLMs-Audio: 동남아시아 언어를 위한 최초의 대규모 오디오-언어 모델

개요

본 논문은 인도네시아어(id), 태국어(th), 베트남어(vi), 영어(en), 중국어(zh) 등 5개 언어를 지원하는 최초의 대규모 오디오-언어 모델(LALM)인 SeaLLMs-Audio를 소개합니다. 대규모 오디오 코퍼스에 대해 훈련된 SeaLLMs-Audio는 미세한 오디오 이해와 음성 기반 상호 작용을 포함한 다양한 오디오 중심 작업에서 강력한 성능을 보입니다. 주요 특징으로는 다국어 지원, 멀티모달 입력 지원(오디오, 텍스트, 오디오+텍스트), 오디오 캡셔닝, 자동 음성 인식, 음성-텍스트 번역, 음성 감정 인식, 음성 질의 응답 및 음성 요약과 같은 다양한 작업을 지원합니다. 또한, 사실, 수학 및 일반적인 지식 질문에 답하는 음성 기반 대화도 가능합니다. 동남아시아 지역의 오디오 LLM 발전을 위한 중요한 단계로서, SeaLLMs-Audio는 지역 연구 커뮤니티와 산업 모두에 도움이 될 것으로 기대됩니다. 동남아시아를 위한 LALM 평가를 자동화하기 위해 여러 작업을 포괄하는 벤치마크인 SeaBench-Audio를 도입했습니다. 실험 결과 SeaLLMs-Audio는 동남아시아 언어에서 다른 LALM에 비해 경쟁력 있는 성능을 달성했습니다.

시사점, 한계점

동남아시아 언어를 위한 최초의 LALM 개발
다국어, 멀티모달, 멀티태스크 지원
SeaBench-Audio 벤치마크 도입으로 LALM 평가 자동화
동남아시아 지역 연구 커뮤니티 및 산업에 기여 기대
논문에서 구체적인 성능 지표 및 다른 모델과의 비교를 더 자세히 제시할 필요가 있음
제한된 언어 지원 (5개 언어)
일반적인 지식 질문에 대한 응답 능력의 정확성 및 견고성에 대한 추가적인 평가 필요
👍