Spoken-LM : Qwen-Audio
안녕하십니까! 이번에 소개할 논문은 “**Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models” 입니다.** qwen audio 모델은 중국의 알리바바 그룹에서 만든 Speech Aware Language Model 입니다. (speech aware language model은 이전 지식 공유때 소개한 것 처럼 음성을 텍스트와 같이 인풋으로 넣고, 텍스트만 출력으로 받는 형태의 언어모델입니다.) 모델의 큰 구조는 Open AI 에서 만든 음성인식기인 Whisper 의 encoder와 decoder 대신 QwenLM을 붙인 형태입니다. Qwen Audio 모델은 음성 인식 뿐 아니라 다양한 태스크를 하나의 모델에서 수행할 수 있습니다. 이런 하나의 모델에서 인식, 번역, 오디오 캡셔닝 등 다양한 태스크를 수행할 수 있는데, 다양한 영역에서 높은 성능을 달성했다고 합니다. 하나의 모델에서 여러 테스크를 수행하기 위해 여러 도메인의 데이터로 학습을 하게 되면, 도메인이 맞지 않아 학습에 어려움을 겪는데, 이를 one-to-many problem이라고 합니다. Qwen Audio에서는 one-to-many problem을 해결하기 위해 계층적 태그를 사용하였습니다. 계층적 태깅은 Qwen Audio 모델이 수행할 수 있는 태스크를 대분류, 소분류로 나누고, input, output 언어의 토큰을 공통으로 주어 여러 태스크의 데이터셋에서 공통된 토큰으로 학습하여 유사한 작업 간의 지식 공유를 극대화하여 성능을 향상시켰습니다. 동시에, 모델의 one-to-many problem을 방지하기 위해 다양한 작업과 출력 형식을 구분할 수 있도록 보장하였습니다. Qwen Audio 의 task를 입력 오디오 출력 텍스트의 내용이 완벽히 일치해야 하는 경우 (전사와 변역 태스크)와 입력 오디오를 참고하여 텍스트를 생성해내는 경우로 크게 구분하였고, 다음으로 입력 언어, 태스크, 출력 언어 순으로 language model의 입력 토큰을 정의하였습니다. 모델을 학습하기 위해 30개 정도의 태스크별로 모아 co-training을 수행하여 pretraining을 진행하고, 대화를 할 수 있도록 20,000시간의 멀티턴 데이터셋을 만들어 Fine-tuning을 수행하였습니다. 이렇게 만들어진 Qwen Audio가 할 수 있는 일은 다음과 같습니다. ASR (Automatic Speech Recognition, 자동 음성 인식): 다양한 언어(8개 언어 지원)의 음성을 텍스트로 변환. S2TT (Speech-to-text Translation, 음성-텍스트 번역): 음성을 듣고 다른 언어의 텍스트로 번역. SRWT (Speech Recognition with Word-level Timestamps, 단어 수준 타임스탬프 포함 음성 인식): 음성 전사뿐만 아니라 각 단어의 시작/끝 시간 정보까지 예측. DID (Dialect Identification, 방언 식별), LID (Spoken Language Identification, 음성 언어 식별), SER (Speech Emotion Recognition, 음성 감정 인식) 등. AAC (Automatic Audio Captioning, 자동 오디오 캡셔닝): 자연 소리를 듣고 설명하는 텍스트 생성. ASC (Acoustic Scene Classification, 음향 장면 분류): 오디오가 녹음된 환경(장면)을 분류 (예: 거리, 숲). AQA (Audio Question Answering, 오디오 질문 답변): 오디오 내용에 대해 질문하면 텍스트로 답변 (예: "밖에 무슨 소리가 나니?"). MNA (Music Note Analysis, 음악 노트 분석): 음악의 피치(pitch), 벨로서티(velocity) 등 분석. MC (Music Captioning, 음악 캡셔닝): 음악을 설명하는 텍스트 생성. MIC (Music Instruments Classification, 악기 분류), MGR (Music Genre Recognition, 음악 장르 인식) 등.
- NeN