LLaMA-Omni는 오픈소스 LLM 기반의 저지연, 고품질 음성 상호작용 모델이다. 기존의 텍스트 기반 상호작용 대비 사용자 경험을 향상시키는 실시간 음성 상호작용을 위해, 사전 훈련된 음성 인코더, 음성 어댑터, LLM, 스트리밍 음성 디코더를 통합한다. 음성 텍스트 변환 과정 없이 음성 명령어로부터 텍스트와 음성 응답을 동시에 생성하며, 226ms의 낮은 지연 시간을 달성한다. Llama-3.1-8B-Instruct 모델을 기반으로, 20만 개의 음성 명령어 및 대응하는 음성 응답으로 구성된 InstructS2S-200K 데이터셋을 사용하여 훈련되었다. 실험 결과, 기존 음성 언어 모델보다 우수한 응답 내용과 스타일을 제공함을 보여주었으며, 4개의 GPU로 3일 이내의 훈련 시간을 달성하여 효율적인 음성 언어 모델 개발을 가능하게 한다.