본 논문은 저자원 언어인 태국어에 대한 오디오 언어 모델의 성능을 평가하고, 이를 개선하기 위한 데이터 혼합 전략을 제시합니다. 기존의 다국어 사전 훈련된 오디오 언어 모델은 영어 중심으로 학습되어 다른 언어에 대한 성능이 떨어지는 한계를 지니고 있습니다. 본 연구는 오디오 이해와 음성 지시 따르기를 통합한 모델을 개발하여 태국어와 영어에 대한 성능을 동시에 향상시키는 데이터 혼합 방법을 실험적으로 검증합니다. 그 결과, 제안된 모델인 Typhoon-Audio는 기존 오픈소스 모델들을 상당히 능가하며, 영어 및 태국어 모두에서 최첨단 모델인 Gemini-1.5-Pro와 비슷한 성능을 달성합니다. 본 논문은 저자원 언어에서의 지시 따르기 성능 향상을 위한 언어 특정 데이터와 다국어 데이터의 균형있는 사용에 대한 통찰력을 제공합니다.