Sign In

LLaMA-Omni: Seamless Speech Interaction with Large Language Models

Created by
  • Haebom
Category
Empty

저자

Qingkai Fang, Shoutao Guo, Yan Zhou, Zhengrui Ma, Shaolei Zhang, Yang Feng

개요

LLaMA-Omni는 오픈소스 LLM 기반의 저지연, 고품질 음성 상호작용 모델이다. 기존의 텍스트 기반 상호작용 대비 사용자 경험을 향상시키는 실시간 음성 상호작용을 위해, 사전 훈련된 음성 인코더, 음성 어댑터, LLM, 스트리밍 음성 디코더를 통합한다. 음성 텍스트 변환 과정 없이 음성 명령어로부터 텍스트와 음성 응답을 동시에 생성하며, 226ms의 낮은 지연 시간을 달성한다. Llama-3.1-8B-Instruct 모델을 기반으로, 20만 개의 음성 명령어 및 대응하는 음성 응답으로 구성된 InstructS2S-200K 데이터셋을 사용하여 훈련되었다. 실험 결과, 기존 음성 언어 모델보다 우수한 응답 내용과 스타일을 제공함을 보여주었으며, 4개의 GPU로 3일 이내의 훈련 시간을 달성하여 효율적인 음성 언어 모델 개발을 가능하게 한다.

시사점, 한계점

시사점:
오픈소스 LLM 기반의 저지연, 고품질 음성 상호작용 모델 개발 가능성 제시
음성 텍스트 변환 과정 생략으로 실시간 상호작용 향상
낮은 지연 시간 (226ms) 달성
효율적인 훈련 과정 (4개의 GPU, 3일 이내)
기존 모델 대비 향상된 응답 내용과 스타일
한계점:
InstructS2S-200K 데이터셋의 규모 및 품질에 대한 추가적인 검증 필요
다양한 음성 환경 및 언어에 대한 일반화 성능 평가 필요
모델의 확장성 및 다른 LLM과의 호환성 검증 필요
장기간 사용 시 발생 가능한 문제점(예: 오류 누적, 성능 저하)에 대한 분석 부족
👍