Paper Review - lotte-innovate-ai

Spoken-LM : Qwen-Audio

안녕하십니까! 이번에 소개할 논문은 “**Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models” 입니다.** qwen audio 모델은 중국의 알리바바 그룹에서 만든 Speech Aware Language Model 입니다. (speech aware language model은 이전 지식 공유때 소개한 것 처럼 음성을 텍스트와 같이 인풋으로 넣고, 텍스트만 출력으로 받는 형태의 언어모델입니다.) 모델의 큰 구조는 Open AI 에서 만든 음성인식기인 Whisper 의 encoder와 decoder 대신 QwenLM을 붙인 형태입니다. Qwen Audio 모델은 음성 인식 뿐 아니라 다양한 태스크를 하나의 모델에서 수행할 수 있습니다. 이런 하나의 모델에서 인식, 번역, 오디오 캡셔닝 등 다양한 태스크를 수행할 수 있는데, 다양한 영역에서 높은 성능을 달성했다고 합니다. 하나의 모델에서 여러 테스크를 수행하기 위해 여러 도메인의 데이터로 학습을 하게 되면, 도메인이 맞지 않아 학습에 어려움을 겪는데, 이를 one-to-many problem이라고 합니다. Qwen Audio에서는 one-to-many problem을 해결하기 위해 계층적 태그를 사용하였습니다. 계층적 태깅은 Qwen Audio 모델이 수행할 수 있는 태스크를 대분류, 소분류로 나누고, input, output 언어의 토큰을 공통으로 주어 여러 태스크의 데이터셋에서 공통된 토큰으로 학습하여 유사한 작업 간의 지식 공유를 극대화하여 성능을 향상시켰습니다. 동시에, 모델의 one-to-many problem을 방지하기 위해 다양한 작업과 출력 형식을 구분할 수 있도록 보장하였습니다. Qwen Audio 의 task를 입력 오디오 출력 텍스트의 내용이 완벽히 일치해야 하는 경우 (전사와 변역 태스크)와 입력 오디오를 참고하여 텍스트를 생성해내는 경우로 크게 구분하였고, 다음으로 입력 언어, 태스크, 출력 언어 순으로 language model의 입력 토큰을 정의하였습니다. 모델을 학습하기 위해 30개 정도의 태스크별로 모아 co-training을 수행하여 pretraining을 진행하고, 대화를 할 수 있도록 20,000시간의 멀티턴 데이터셋을 만들어 Fine-tuning을 수행하였습니다. 이렇게 만들어진 Qwen Audio가 할 수 있는 일은 다음과 같습니다. ASR (Automatic Speech Recognition, 자동 음성 인식): 다양한 언어(8개 언어 지원)의 음성을 텍스트로 변환. S2TT (Speech-to-text Translation, 음성-텍스트 번역): 음성을 듣고 다른 언어의 텍스트로 번역. SRWT (Speech Recognition with Word-level Timestamps, 단어 수준 타임스탬프 포함 음성 인식): 음성 전사뿐만 아니라 각 단어의 시작/끝 시간 정보까지 예측. DID (Dialect Identification, 방언 식별), LID (Spoken Language Identification, 음성 언어 식별), SER (Speech Emotion Recognition, 음성 감정 인식) 등. AAC (Automatic Audio Captioning, 자동 오디오 캡셔닝): 자연 소리를 듣고 설명하는 텍스트 생성. ASC (Acoustic Scene Classification, 음향 장면 분류): 오디오가 녹음된 환경(장면)을 분류 (예: 거리, 숲). AQA (Audio Question Answering, 오디오 질문 답변): 오디오 내용에 대해 질문하면 텍스트로 답변 (예: "밖에 무슨 소리가 나니?"). MNA (Music Note Analysis, 음악 노트 분석): 음악의 피치(pitch), 벨로서티(velocity) 등 분석. MC (Music Captioning, 음악 캡셔닝): 음악을 설명하는 텍스트 생성. MIC (Music Instruments Classification, 악기 분류), MGR (Music Genre Recognition, 음악 장르 인식) 등.

2025/07/07 9:19 AM

Speech LM 이란?

Chat GPT를 필두로 텍스트 기반의 생성형 언어모델이 성공하자 이를 활용한 멀티모달 인공지능에 대한 연구가 활발해지고 있습니다. (멀티모달이란, 텍스트 외에 사진이나 소리 등을 입력으로 함께 받아 이를 함께 활용하는 인공지능 모델을 의미) 오늘은 그 중에서 음성을 같이 활용한 SLM(Speech Language Model)에 대하여 포스팅 하도록 하겠습니다. SLM은 최근에 급격하게 연구가 이루어지고 있는 분야로, 사실 이를 부르는 용어도 통일 되지 않았습니다. speech LM 이라고도 불리고, Spoken LM이라고도 불리며 Large Audio Language Model(LALM) 이라고 불리기도 한답니다. 이를 공부하기 위해 저희는 “On The Landscape of Spoken Language Models: A Comprehensive Survey” 이라는 논문을 가지고 SLM의 개념에 대해서 공부를 하였고, 이를 간략하게나마 공유하고자 합니다. SLM의 구성요소 위 그림은 음성을 이용한 SLM에 대한 여러 카테고리와 구성 요소들에 대한 도식입니다. 음성 입력만 있고, 음성 출력만 있는 순수한 “Pure Speech LM”, 음성과 텍스트 입력이 되고, 출력은 텍스트만 있는 “speech-aware text LM” 그리고, 입출력 모두 음성, 텍스트가 가능한 “speech+text LM”으로 구분할 수 있겠습니다. 위 그림의 가운데에 있는 Sequence Model이 흔히들 말하는 LLM 입니다. 여기에는 Meta에서 개발한 LLAMA, 중국의 알리바바에서 개발한 Qwen 등 다양한 LLM 모델이 들어갈 수 있습니다. 그리고 이 모델에 input으로 텍스트나 음성을 넣기 위한 encoder와 소리를 생성하기 위한 decoder가 있습니다. 보통은 LLM 자체만으로 너무 큰 모델이기 때문에 인코더, 디코더, sequence model을 각각 따로 학습 시킨 뒤 (보통은 학습 되어 있는 모델을 다운 받습니다.) 이를 결합해주는 어댑터 부분만을 학습시키는 경우가 많습니다. 음성 인코더로 사용할 수 있는 모델은 많이 있는데, 음성에서 전통적인 특징 추출 방법(푸리에 변환 - 멜 스펙트로그램 등)을 이용한 방법, 음성인식기에서 앞부분을 취해 음성에 대한 임베딩을 추출할 수 있는 부분 등 여러 방법이 있습니다. 음성은 텍스트에 비해 특정 시간 동안 동일한 의미의 임베딩이 추출될 가능성이 높고, 같은 내용을 담은 시퀀스에 대해 텍스트와 길이가 다르기 때문에 이를 적절히 압축해 줄 수 있는것이 또 하나의 연구거리 입니다. 어댑터로도 선형 변환을 이용한 어댑터, CNN 레이어를 이용한 어댑터 등 다양한 종류를 선택할 수 있습니다. 좋은 어댑터를 고르면, SLM에 대한 특별한 데이터셋 없이 음성인식 학습을 위한 데이터셋 만으로 모델을 잘 학습할수 있다고 합니다. SLM의 음성 토큰 생성 전략 sequence model도 기존 LLM과 달리 음성 특징에 대한 토큰을 생성해내야 하기 때문에 특별한 작업이 필요합니다. 생성해야 할 음성에는 언어적인 정보 뿐 아니라 장단이나 음색과 같은 소리의 특성적인 부분도 있기 때문에 이를 coarse token, finer token 등 여러 부분에 대한 token으로 나누어 생성해내도록 합니다. coarse token은 언어정보가 들어있고, finer token에는 소리의 특성이 들어있습니다. 위의 그림처럼 크게 4가지 전략을 이용하여 생성해낼 수 있습니다. 음성과 텍스트를 동시에 출력해야 한다고 한다면, 동일한 시퀀스 동안 동일한 양의 정보를 출력해주는 것도 중요합니다. 이를 위해 또 위와 같이 4가지 방법으로 padding을 주어 텍스트와 음성 토큰의 align을 맞출 수 있다고 합니다. (c), (d) 방법은 음성-텍스트 간의 align이 맞는 데이터셋이 추가로 필요합니다. 이런 token을 생성해냈으면 이를 소리로 변환해주는 decoder를 학습하여 적용합니다. 학습을 하는 방법으로는 pre-training과 post-training의 단계를 거칩니다.

2025/06/14 11:26 PM

[논문 리뷰] From Local to Global: A Graph RAG Approach to Query-Focused Summarization

안녕하세요! 오늘은 2024년 4월에 공개된 RAG 및 요약 관련 논문을 소개드리고자 합니다! 소개드리는 논문은 기존의 텍스트 요약 모델과 차별화된 접근 방식을 통해 대규모 데이터셋에서도 효율적이고 포괄적인 질의 중심 요약을 가능하게 하는 Graph RAG 입니다. 이 연구는 대규모 데이터셋 전반의 주제나 관계를 요약하는 데 강점을 보입니다. 특히, Retrieval-Augmented Generation(RAG)과 그래프 이론의 결합을 통해 텍스트 데이터를 커뮤니티 단위로 요약하고, 이를 바탕으로 심층적이고 다각적인 응답을 제공할 수 있다는 점에서 학술 및 비즈니스 인텔리전스 분야의 데이터 분석에 혁신적인 영향을 미칠 것으로 기대됩니다. Microsoft에서 작성하여 대규모 데이터 분석의 효율성과 인터랙티브한 인사이트 제공 측면에서 향후 더 큰 영향력을 발휘할 것으로 예상됩니다. Abstract 논문은 기존 RAG(Retrieval-Augmented Generation) 방식이 대규모 텍스트 코퍼스 전체에 대한 글로벌 질문을 해결하는 데 한계를 보인다고 지적합니다. 예를 들어, "데이터셋의 주요 주제는 무엇인가?"와 같은 질문은 개별적인 정보 검색이 아니라 질문에 맞춰 요약을 수행하는 작업(QFS, Query-Focused Summarization)을 요구하기 때문에, 기존 RAG의 접근 방식으로는 이러한 질문에 적합한 답변을 제공하기 어렵습니다. 기존의 QFS 접근 방식도 대규모 텍스트를 다루기에는 한계가 있었기 때문에, 이 논문에서는 이러한 문제를 해결할 수 있는 Graph RAG 방식을 제안합니다. Graph RAG는 엔티티 지식 그래프(Entity Knowledge Graph)를 기반으로, 데이터셋 내의 밀접하게 관련된 엔티티들을 커뮤니티로 그룹화하고, 각 커뮤니티에 대해 Community Summary를 사전 생성합니다. 사용자가 질문을 하면, 각 커뮤니티의 요약을 활용해 부분적인 응답을 생성한 뒤, 이를 최종적으로 통합하여 포괄적이고 일관된 답변을 제공합니다. 이 접근 방식은 기존 QFS와 달리 대규모 텍스트를 효과적으로 다룰 수 있다는 점에서 차별화됩니다. 특히, 대규모 데이터셋에서도 효율적인 글로벌 질문 처리가 가능하도록 설계되어, 전체 텍스트 코퍼스에서 중요한 주제나 패턴을 도출하는 데 유리합니다. Introduction 인간이 도메인 지식을 바탕으로 복잡한 의미를 이해하는 방식처럼, RAG(Retrieval-Augmented Generation)도 이러한 인간의 사고 과정을 적용하여 텍스트에서 정보를 추출하고자 합니다. 현재 LLM(Large Language Models)을 사용한 문서의 국소적 요약(Local summarization)은 비교적 간단해졌지만, 특정 질문에 맞춘 요약(Query-Focused Abstractive Summarization, QFS)에 대한 연구는 여전히 부족한 상황입니다. LLM은 긴 컨텍스트를 효과적으로 처리하는 데에 한계가 있습니다. 이 문제를 해결하기 위해, 본 연구에서는 사전 인덱싱을 통한 QFS 방식을 제안합니다. 이를 위해 LLM을 활용해 지식 그래프(Knowledge Graph)를 자동으로 구축하고, 그 그래프를 통해 전체 데이터셋을 요약하는 Graph RAG 접근 방식을 제시합니다. 이 과정에서 그래프 인덱스를 단순히 구조화하고, 검색하며, 노드 간의 연결을 탐색하는 것에 집중하지 않고, 대신 노드와 연관된 모듈화된 그룹을 탐지하고 분석하는 것에 중점을 둡니다. 이렇게 탐지된 그룹은 병렬로 요약이 수행되며, 각 부분적인 요약 결과를 다시 종합하여 최종적인 글로벌 요약을 제공합니다. 본 연구에서는 팟캐스트 전사본과 뉴스 기사 데이터를 활용하여, Graph RAG 접근 방식과 기존 방법들을 평가하였습니다. 그 결과, 제안된 방법이 더 포괄적이고 다양한 답변을 제공하며, 전체 데이터셋에 대한 질문에 더 효과적으로 답변할 수 있음을 보여줍니다. Graph RAG Approach & Pipeline 사전 용어 정리 Node: Entity와 동일하며 사람, 지명, 장소 등을 의미합니다.

레

레오

2024/10/31 10:52 AM

[논문 리뷰] NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

본 글은 롯데 아이멤버[언어>업무도우미>텍스트 요약, 번역, 교정]를 활용하여 작성했습니다. 안녕하세요 통통한 아이멤버입니다! 요즘 인공지능을 사용하면서 대용량 텍스트를 입력으로 사용하는 경우가 많아지고 있습니다! 예를 들어, 책 한 권 분량의 내용, 법률 관련 문서, 대용량 데이터베이스 등의 정보를 입력하여 필요한 내용을 찾는 경우가 늘어나고 있습니다. 이러한 요구에 맞춰 많은 기업들이 긴 컨텍스트(long context)를 처리할 수 있는 모델을 출시하고 있습니다. 예를 들어, GPT-4는 128k, Claude-3는 200k, Llama 3.1는 128k를 지원하여 책 한 권 분량의 입력을 처리할 수 있습니다.📕 하지만 이렇게 긴 문장을 처리할 수 있어도, 원하는 내용을 정확히 찾지 못한다면 효율성이 크게 떨어지게 됩니다. 😅 긴 문장에서 필요한 정보를 찾는 능력을 평가하기 위해, 모래사장에서 바늘을 찾는 것에 비유한 NeedleBench 논문이 발표되었습니다. 🏖️🪡 해당 벤치마크 관련 논문이 어떤 내용을 담고 있는지 확인해 보겠습니다! Abstract 대형 언어 모델(LLM)의 능력을 평가할 때, 원본의 긴 문서에서 사용자의 질의와 관련된 내용을 긴 텍스트 기반의 질문에서 찾아 대답할 수 있는 것은 중요한 평가 요소입니다. NeedleBench는 긴 문서에서 사용자 질의를 정확하게 체크할 수 있는지를 확인할 수 벤치마크를 소개합니다. 다양한 길이(4k, 8k, 32k, 128k, 200k, 1000k 이상)의 문장과 긴 문맥 능력을 평가하는 일련의 과제를 포함하는 테스트입니다. NeedleBench 프레임워크를 사용하여 주요 오픈 소스 모델이 질문과 관련된 주요 정보를 얼마나 잘 식별하고, 긴 텍스트 추론에 적용하는지를 평가합니다. 긴 글 작업에서 발생할 가능성이 있는 논리적 추론 과제를 평가할 수 있는 Ancestral Trace Challenge (ATC)도 제안합니다. 복잡한 긴 문맥 상황을 처리하는 LLM을 평가하는 간단한 방법을 제공합니다. 소개한 벤치마크를 통해 LLM이 실용적인 긴 문맥을 이용한 작업에 상당한 개선의 여지가 있음을 알 수 있으며, 긴 문맥 작업에서 발생할 가능성이 높은 논리적 추론 과제의 복잡성에 어려움을 겪고 있음을 확인할 수 있습니다.

통

통통한아이멤버

2024/07/29 11:51 AM

[논문 리뷰] QWEN2 TECHNICAL REPORT

안녕하세요! 통통한아이멤버입니다! 요즘 오픈소스 LLM은 춘추전국 시대를 겪고 있는데요 (Llama, Qwen, Mixtral...) 시중에 사용할 수 있는 대부분의 모델은 한국어 성능이 부족한 이슈가 존재합니다. 이런 한국어 오픈소스 LLM 갈증을 해결해 줄 수도 있는 한국어 성능이 좋은 LLM인 Qwen2가 2024년 06월 06일에 발표되었습니다. 위의 이미지에서 확인할 수 있듯이 라마3 70B의 성능을 뛰어넘는 성능을 보여주고 있고, Qwen/Qwen2-72B-Instruct, Qwen/Qwen2-7B, Qwen/Qwen2-7B-Instruct-GPTQ-Int8 등등 다양한 형태의 모델을 제공하고 있습니다. 해당 모델에 대한 TECHNICAL REPORT가 24년 7월 15일에 발표되어 한 번 살펴보겠습니다. Abstract 알리바바는 대형 언어 모델(LLM)인 Qwen2 시리즈를 소개합니다. 해당 모델은 0.5B~72B의 다양한 매개변수를 가지는 모델를 공개합니다. Qwen2는 다양한 오픈소스 LLM을 성능을 능가하며 선행 모델인 Qwen1.5보다 뛰어난 성능을 보이고 잇습니다. 주요 모델인 Qwen2-72B는 MLU에서 84.2점, GPQA에서 37.9점, HumanEval에서 64.6점, GSM8K에서 89.5점, BBH에서 82.4점을 기록했습니다. 30개 언어에 능숙한 다국어 능력을 보여주며, 영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등 다양한 언어를 지원합니다. 혁신적인 모델 발전을 위해 모델 가중치를 공개하여 다양한 연구 작업을 촉진합니다. Introduction LLM 등장 이후 LLM은 엄청난 관심을 받게 됩니다. 점점 더 많은 경쟁력 있는 LLM이 OPENAI의 GPT 시리즈와 유사한 발전을 추구하고 있습니다. Qwen, Mistral, Gemma등과 같이 오픈 가중치 방식으로 출시되었습니다. Qwen은 언어, 비전, 오디오 모델과 같이 다양한 모델을 출시하였고 이번에 최신 Qwen2를 소개합니다. Qwen2는 Transformer 아키텍처에 기반을 두고 다음 토큰을 예측하는 LLM 시리즈 중 하나입니다. 해당 모델 시리즈는 기본 언어 모델(사람의 선호도에 맞춰지지 않은 사전 학습 모델), instruction-tuned 모델을 출시합니다. 0.5억, 1.5억, 7억, 72억 매개변수를 가진 모델 4가지를 출시하였습니다. 이 중 0.5억, 1.5억 모델은 휴대용 장치에 쉽게 배포할 수 있게 설게되었습니다. 모든 모델은 다양한 도메인과 언어를 포함하는 7조 개 이상의 토큰으로 구성된 고품질 데이터셋에서 사전 학습되었습니다. 이후 훈련에 대해서는 모든 모델은 supervised된 fine-tuning과 DPO를 거쳐 학습함으로써 인간의 선호도에 맞춰져있습니다. 오픈, 독점 모델을 포함한 다양한 모델들과 비교분석을 수행하였습니다. 다양한 벤치마크에서 Qwen2는 경쟁 모델을 능가하는 것을 확인했습니다. TOKENIZER & MODEL Qwen2의 토크나이저와 모델 설계를 소개합니다. TOKENIZER

통

통통한아이멤버

2024/07/20 9:02 PM

[논문 리뷰] Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

**해석과 맞춤법은 아이멤버 업무도우미를 이용하였습니다. 안녕하세요 이번 논문 리뷰를 맞게 된 통통한아이멤버입니다. 제가 이번에 리뷰할 논문은 "Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling"입니다. Mamba, State Space Model (SSM), with Sliding Window Attention (SWA)를 합친 SAMBA로 무한한 context 길이를 가지는 sequence를 modeling하는 것을 해결했습니다. 위의 이미지에서 볼 수 있듯이 최대 1M 토큰까지 예측 성능 향상, 64K 디코딩에서 최신 아키텍보다 빠른 디코딩 성능을 확인했습니다. 이후 어떠한 점이 해당 아키텍처가 성능과 속도를 모두 잡았는지 살펴보겠습니다. SSM의 약점을 보완한 하이브리드 접근법 Attention 기반 모델이 가진 장기 의존성 문제를 해결하기 위해 SSM을 이용한 새로운 모델이 제안되었고, 이는 서형 계산 복잡성과 더 긴 Sequence를 이해할 수 있게 되었습니다. 하지만 SSM 기반 모델들은 Markovian nature 때문에 memory recall에 문제가 있으며 retrieval-related tasks 굉장한 한계를 노출했습니다. 이를 해결하기 위해 어텐션 메커니즘과 혼합하는 다양한 방식이 탐구되었지만 선형 시간 복잡성 때문에 context extrapolation를 수행하지 못합니다. 해당 논문은 SSM과 어텐션 기반 모델의 강점을 조화시키면서 선형 시간 복잡성으로 무제한 context extrapolation을 달성하는 간단한 신경 아키텍처인 SAMBA를 소개합니다. 방법론 아키텍처 Mamba, Sliding Window Attention(SWA), 다층 퍼셉트론(MLP)으로 구성된 하이브리드 전략을 구성합니다. Mamba는 반복되는 시퀀스 구조를 포착하고, SWA는 메모리를 정밀하게 기억하며, MLP는 사실적 지식을 기억하는 역할을 합니다.

통

통통한아이멤버

2024/06/20 10:31 AM