본 논문은 인도네시아어(id), 태국어(th), 베트남어(vi), 영어(en), 중국어(zh) 등 5개 언어를 지원하는 최초의 대규모 오디오-언어 모델(LALM)인 SeaLLMs-Audio를 소개합니다. 대규모 오디오 코퍼스에 대해 훈련된 SeaLLMs-Audio는 미세한 오디오 이해와 음성 기반 상호 작용을 포함한 다양한 오디오 중심 작업에서 강력한 성능을 보입니다. 주요 특징으로는 다국어 지원, 멀티모달 입력 지원(오디오, 텍스트, 오디오+텍스트), 오디오 캡셔닝, 자동 음성 인식, 음성-텍스트 번역, 음성 감정 인식, 음성 질의 응답 및 음성 요약과 같은 다양한 작업을 지원합니다. 또한, 사실, 수학 및 일반적인 지식 질문에 답하는 음성 기반 대화도 가능합니다. 동남아시아 지역의 오디오 LLM 발전을 위한 중요한 단계로서, SeaLLMs-Audio는 지역 연구 커뮤니티와 산업 모두에 도움이 될 것으로 기대됩니다. 동남아시아를 위한 LALM 평가를 자동화하기 위해 여러 작업을 포괄하는 벤치마크인 SeaBench-Audio를 도입했습니다. 실험 결과 SeaLLMs-Audio는 동남아시아 언어에서 다른 LALM에 비해 경쟁력 있는 성능을 달성했습니다.