[논문 리뷰] Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

[논문 리뷰] LLM은 정답을 알면서도 거짓말한다? 할루시네이션의 내부 메커니즘 분석

논문: LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations 저자: Google Research & Apple (2024년 10월)https://arxiv.org/pdf/2410.02707 코드: https://github.com/technion-cs-nlp/LLMsKnow 원문: https://arxiv.org/pdf/2410.02707코드: https://github.com/technion-cs-nlp/LLMsKnow 코드: https://github.com/technion-cs-nlp/LLMsKnow 1. 들어가며 대규모 언어 모델(LLM)의 할루시네이션(Hallucination)은 현재 AI 시스템의 가장 중요한 과제 중 하나입니다. ChatGPT나 Claude와 같은 모델이 사실과 다른 정보를 마치 사실인 것처럼 생성하는 현상은 단순한 오류를 넘어 신뢰성 문제로 이어집니다. 그동안 우리는 LLM이 할루시네이션을 보이는 이유를 "충분한 지식이 없어서" 혹은 "학습 데이터가 부족해서"라고 생각해 왔습니다. 하지만 최근 Google Research와 Apple의 공동 연구는 이러한 통념을 뒤집는 놀라운 발견을 제시합니다. LLM은 정답을 내부적으로 알고 있으면서도 틀린 답변을 생성한다는 것입니다. 이 논문은 LLM의 내부 표현(internal representation)을 분석하여 할루시네이션의 본질을 이해하고자 한 획기적인 연구입니다. 기존의 블랙박스 접근법에서 벗어나 모델의 내부 메커니즘을 직접 들여다봄으로써, 할루시네이션 문제 해결의 새로운 방향을 제시하고 있습니다. 2. 연구의 핵심 질문과 방법론 2.1 기존 접근법의 한계 그동안 할루시네이션 탐지를 위해 시도된 방법들은 주로 외부적 관찰에 의존했습니다. 확률 기반 접근 모델이 생성하는 각 토큰의 확률값을 측정 낮은 확률 = 불확실성으로 해석 한계: 모델이 틀린 답을 매우 자신감 있게 말하는 경우 탐지 불가 반복 질문 방법 (Self-Consistency) 동일한 질문을 여러 번 해서 답변의 일관성 확인 한계: 계산 비용이 높고, 일관되게 틀린 답을 하는 경우 탐지 불가 자체 검증 방법 모델에게 "방금 답변이 맞나요?"라고 재차 질문 한계: 모델이 자신의 오류를 인지하지 못하는 경우가 많음 외부 지식 활용 (RAG)

레

레모나

2025/10/27 1:40 AM

[논문리뷰] LLM도 레벨마다 잡기 좋은 몬스터(강화학습 데이터)가 있다

원문: https://arxiv.org/pdf/2509.19803 이번에 리뷰할 논문은 Variance-based curriculum reinforcement learning for large language models. 줄여서 VCRL 입니다. 제목에서 확인할 수 있듯이 분산 기반의 강화학습 커리큘럼 러닝입니다. 연구 배경과 문제 제기 먼저 현재 상황을 살펴보겠습니다. 기존의 롤아웃 기반 강화학습 방법들(GRPO, DAPO, GSPO 등)은 LLM이 서로 다른 난이도의 샘플을 학습하는 능력을 명시적으로 고려하지 못하는데, 이는 쉬운 것부터 어려운 것으로 진행되는 수학적 추론 과제의 인간 인지 과정과 반대됩니다. 마치 Lv.1 초보 용사에게 슬라임부터 드래곤까지 무작위로 만나게 하는 것과 같습니다. 너무 쉬운 문제는 학습 가치가 없고, 너무 어려운 문제는 학습이 불가능합니다. 이는 인간의 학습 과정과도 맞지 않죠. 우리는 보통 쉬운 것부터 시작해서 점차 어려운 것으로 나아갑니다. 이것이 바로 이 논문에서 해결하고자 하는 핵심 문제입니다. 기존 강화학습 방법론의 한계 기존의 대표적인 강화학습 방법들을 살펴보겠습니다. GRPO는 여러 개의 응답을 생성해서 상대적으로 비교하는 방법이고, DAPO는 여기에 몇 가지 개선을 더한 것입니다. GSPO는 토큰 레벨이 아닌 시퀀스 레벨에서 최적화를 수행합니다. 하지만 이들 모두 공통적인 문제가 있습니다. 바로 샘플의 난이도를 명시적으로 고려하지 않는다는 점입니다. 모델의 현재 능력에 맞는 '적절한' 문제를 선택하지 못하는 것이죠. VCRL 용사 두두등장 이제 오늘의 주인공인 VCRL을 소개하겠습니다. VCRL은 Variance-based Curriculum Reinforcement Learning의 약자로, 분산 기반 커리큘럼 강화학습입니다. 핵심 아이디어는 간단합니다. 그룹 보상의 '분산'을 이용해서 샘플의 난이도를 측정하고, 현재 모델에게 적절한 난이도의 샘플만 선택적으로 학습한다는 것입니다. 마치 RPG 게임에서 자신의 레벨에 맞는 몬스터만 골라서 사냥하는 것처럼요. 용사 vs. 몬스터 시나리오 A, B, C 세 가지 시나리오를 비교해보겠습니다. 슬라임은 8번 다 이기고, 보스는 8번 다 지고, 둘 다 분산이 0입니다. 하지만 고블린은 이기기도 하고 지기도 해서 분산이 최대치인 0.286에 도달합니다. 이진 보상 시스템에서 분산은 4승 4패일 때 최대가 됩니다. 바로 이 지점이 모델의 '학습 경계'이며, 가장 효율적인 학습이 일어나는 순간입니다. VCRL은 바로 이런 샘플들을 선택적으로 학습합니다. 분산 계산 공식 분산을 계산하는 수식을 살펴보겠습니다. 이진 보상 시스템에서 분산은 k(G-k)를 G(G-1)로 나눈 값입니다. k는 성공 횟수, G는 총 시도 횟수입니다. 8번 시도할 때 4번 성공하면 분산이 최대가 됩니다. 이를 정규화한 값 p를 난이도 지표로 사용합니다. 이 공식은 간단하지만 매우 효과적으로 샘플의 학습 가치를 측정할 수 있습니다. 분산의 의미 분산이 난이도를 어떻게 측정하는지 구체적으로 보겠습니다. 모델에게 같은 문제를 8번 풀게 합니다. 너무 쉬운 문제는 8번 다 맞히고, 너무 어려운 문제는 8번 다 틀립니다. 이 경우 모두 분산이 0입니다. 하지만 적절한 난이도의 문제는 5번 맞히고 3번 틀리는 식으로 결과가 다양하게 나옵니다. 이때 분산이 최대가 됩니다. 이것이 바로 모델이 '배울 수 있는' 경계선에 있다는 신호입니다. 이런 샘플에서 가장 효과적인 학습이 일어나는 것이죠. 메모리 뱅크 메모리 뱅크는 Replay Learning을 구현하는 메커니즘으로, 고품질 샘플을 저장하고 재사용함으로써 학습 효율성을 높이는 시스템입니다.

레

레모나

2025/10/27 1:26 AM

[논문 리뷰] Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering

이번에 소개드릴 내용은 정답 라벨링이 되지 않은 음성 데이터 (unlabeled speech data)를 인위적으로 라벨링 및 필터링 하는 방법을 공유하고자 합니다. 공유 내용은 "Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering" 논문입니다. 인공지능에서는 데이터에 레이블이 필수적인데요. 레이블 작업은 많은 비용을 유발합니다. 예를 들어 100시간에 음성 데이터를 레이블 하면 대략 3천만원 정도가 필요합니다. 레이블 작업을 줄이기 위한 연구가 Pseudo-Labels(의사레이블, 가짜레이블)입니다. 제가 소개할 논문은 Pseudo-Labels과 Pseudo-Labels을 통해 얻은 데이터를 필터링 하는 논문입니다. 연구 배경 및 문제 정의 최신 ASR 모델(Whisper, Conformer, Zipformer 등)은 대규모 데이터로 학습되어 일반적인 성능은 우수하나, 도메인 특화(domain-specific) 상황에서는 성능 저하가 발생. 실제 산업 환경(콜센터, 의료, 보험 등)에서는 라벨링 비용이 높아 소량의 정답 데이터만 확보 가능하고, 수천 시간 규모의 비라벨 데이터는 활용하기 어려움. 따라서, 효율적인 데이터 선택 전략을 통해 고품질의 학습용 오디오 세그먼트를 얻고, 얻은 데이터로 도메인 특화 ASR모델을 만드는 연구 제안 방법 WER 기반 선택 - WER 예측 연구에서 영감을 받아, SVM(Support Vector Machine) 분류기를 훈련하여 음성 세그먼트를 low-WER 클래스와 high-WER 클래스로 분류합니다. 직접적인 WER 예측 대신 high-WER 세그먼트를 필터링하여 고품질 데이터를 우선합니다. low-WER 기준은 WER ≤ 50%로 정의됩니다. CER 기반 선택 - 레이블링되지 않은 음성 코퍼스는 Whisper Medium, Zipformer, Nemo Parakeet 세 가지 ASR 모델을 사용하여 전사됩니다. 각 세그먼트에 대해 모든 모델 간의 CER이 계산되며, 평균 CER이 선택 기준으로 사용됩니다. 평균 CER이 미리 정의된 임계값 5%미만인 세그먼트만 파인튜닝에 사용됩니다. NER-Based Selection - BERT에서 증류된(distilled) 경량 NER 모델을 사용하여 개체명(named entities)을 포함하는 세그먼트를 식별합니다. 데이터 선택은 두 단계로 이루어집니다: 먼저 NER 모델을 사용하여 개체를 포함하는 모든 세그먼트를 식별한 다음, 랜덤, 고신뢰도 샘플링, 개체 분포 균형 유지 샘플링 등을 사용하여 샘플링. (Random sampling, High Confidence NER score based sampling, Entity Class Distribution-based Random Sampling, Entity Class Distribution-based High Confidence Sampling방식은 논문 참고)

박

박희용

2025/10/20 9:29 AM

Spoken-LM : SALMONN

안녕하십니까! 이번에 살펴 볼 논문은 SALMONN: TOWARDS GENERIC HEARING ABILI- TIES FOR LARGE LANGUAGE MODELS 입니다. 지난번의 QWEN Audio와 공통점과 차이점에 대해서 확인해보시면 더욱 재미있을 것 같습니다. 1. 모델 아키텍처 SALMONN은 오디오와 텍스트 토큰을 입력으로 받아 텍스트 토큰을 생성해내는 모델입니다. 구조는 크게 오디오 인코더들, 오디오 인코더의 아웃풋을 오디오 토큰으로 변환해주는 Q-Former, 토큰 시퀀스를 입력으로 받아, 텍스트 토큰을 출력해주는 Sequence model (vicuna 사용) 이를 효율적으로 학습할 수 있게 해주는 LoRA 어댑터 입니다. 학습 과정에서 다른 부분들은 학습하지 않고 Q-Former, LoRA 만 학습하기 때문에 전체 모델 파라미터의 0.24%정도만 학습을 하면 됩니다. 1-1. 오디오 인코더 음성인식기로 학습된 Whisper V2 모델의 encoder와 소리(음성 뿐 아니라 사운드에 대한 전반적인)를 토큰으로 변환해주는 Beats를 합쳐서 오디오를 인코딩해줍니다. whisper가 음성인식 task에 대하여 포커싱을 두어 학습되었기 때문에 비음성에 대한 모델링은 미흡할것이라는 점을 Beats의 인코더로 보완을 하여 동일한 크기로 sub-sampling 되기 때문에 각 인코더의 아웃풋을 이어붙여서 사용할 수 있었습니다. 1-2. Q-Former 이렇게 추출된 오디오 임베딩을 Q-Former를 통해 오디오 토큰으로 변환되게 됩니다. Q-former는 트랜스포머 구조를 하고 있는데, Query Vector의 후보를 만들어두고, 이를 인풋 Key,Value 벡터들과 cross-attention을 하여 인풋을 효율적으로 압축할 수 있도록 하는 모델입니다. 1-3. Vicuna, LoRA SALMONN에서 백으로 사용한 Vicuna는 Meta의 LLAMA를 멀티턴 대화를 더 잘 처리할 수 있도록 finetuning한 모델입니다. SALMONN에서는 13B, 7B의 vicuna 모델을 사용합니다. LoRA는 이미 학습된 모델을 특정 태스크에 대해 빠르게 파인튜닝을 할 수 있도록 하는 기법입니다. 왼쪽 그림과 같이 dk 크기의 행렬에 대한 파라미터를 학습하는 대신 dr, r*k 두개 행렬의 파라미터를 학습하도록 합니다. 2. 학습 방법 학습은 Pre-training Stage, Instruction Tuning Stage, Activation Tuning Stage의 3단계를 거칩니다. 위에서 언급된 것 처럼 3 단계 모두 Q-former와 LoRA만 학습됩니다. 2.1 Pre-training pre-training stage에서는 Q-former, LoRA가 학습이 되어 기초적인 멀티모달 정렬 능력을 안정적으로 학습시키는 단계입니다. 음성인식, 오디오 캡셔닝 데이터셋을 이용 해당 태스크를 수행하도록 합니다. 이 task들은 복잡한 추론 능력이 필요 없는 단순한 작업입니다. 2.2 Instruction Tuning 다양한 12종의 task에 대해서 prompt를 넣어 prompt에 반응할 수 있도록 학습하는 단계입니다. 즉, "오디오 + 프롬프트 → 적절한 답" 형태의 범용 멀티모달 LLM 로 만들기 위한 훈련입니다. 2.3 Activation Tuning 위의 두 학습만으로는 LLM이 ASR등 결정론적인 응답에 강하게 정렬되어 일반화 능력이 감소하는 문제가 발생합니다. 즉, LLM 이 알고있는것과 말하는 것 사이의 간극이 발생하는데, 이를 해소하는 작업을 Activation Tuning으로 해결하려 합니다. 3. 실험

2025/08/04 8:13 AM

Spoken-LM : Qwen-Audio

안녕하십니까! 이번에 소개할 논문은 “**Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models” 입니다.** qwen audio 모델은 중국의 알리바바 그룹에서 만든 Speech Aware Language Model 입니다. (speech aware language model은 이전 지식 공유때 소개한 것 처럼 음성을 텍스트와 같이 인풋으로 넣고, 텍스트만 출력으로 받는 형태의 언어모델입니다.) 모델의 큰 구조는 Open AI 에서 만든 음성인식기인 Whisper 의 encoder와 decoder 대신 QwenLM을 붙인 형태입니다. Qwen Audio 모델은 음성 인식 뿐 아니라 다양한 태스크를 하나의 모델에서 수행할 수 있습니다. 이런 하나의 모델에서 인식, 번역, 오디오 캡셔닝 등 다양한 태스크를 수행할 수 있는데, 다양한 영역에서 높은 성능을 달성했다고 합니다. 하나의 모델에서 여러 테스크를 수행하기 위해 여러 도메인의 데이터로 학습을 하게 되면, 도메인이 맞지 않아 학습에 어려움을 겪는데, 이를 one-to-many problem이라고 합니다. Qwen Audio에서는 one-to-many problem을 해결하기 위해 계층적 태그를 사용하였습니다. 계층적 태깅은 Qwen Audio 모델이 수행할 수 있는 태스크를 대분류, 소분류로 나누고, input, output 언어의 토큰을 공통으로 주어 여러 태스크의 데이터셋에서 공통된 토큰으로 학습하여 유사한 작업 간의 지식 공유를 극대화하여 성능을 향상시켰습니다. 동시에, 모델의 one-to-many problem을 방지하기 위해 다양한 작업과 출력 형식을 구분할 수 있도록 보장하였습니다. Qwen Audio 의 task를 입력 오디오 출력 텍스트의 내용이 완벽히 일치해야 하는 경우 (전사와 변역 태스크)와 입력 오디오를 참고하여 텍스트를 생성해내는 경우로 크게 구분하였고, 다음으로 입력 언어, 태스크, 출력 언어 순으로 language model의 입력 토큰을 정의하였습니다. 모델을 학습하기 위해 30개 정도의 태스크별로 모아 co-training을 수행하여 pretraining을 진행하고, 대화를 할 수 있도록 20,000시간의 멀티턴 데이터셋을 만들어 Fine-tuning을 수행하였습니다. 이렇게 만들어진 Qwen Audio가 할 수 있는 일은 다음과 같습니다. ASR (Automatic Speech Recognition, 자동 음성 인식): 다양한 언어(8개 언어 지원)의 음성을 텍스트로 변환. S2TT (Speech-to-text Translation, 음성-텍스트 번역): 음성을 듣고 다른 언어의 텍스트로 번역. SRWT (Speech Recognition with Word-level Timestamps, 단어 수준 타임스탬프 포함 음성 인식): 음성 전사뿐만 아니라 각 단어의 시작/끝 시간 정보까지 예측. DID (Dialect Identification, 방언 식별), LID (Spoken Language Identification, 음성 언어 식별), SER (Speech Emotion Recognition, 음성 감정 인식) 등. AAC (Automatic Audio Captioning, 자동 오디오 캡셔닝): 자연 소리를 듣고 설명하는 텍스트 생성. ASC (Acoustic Scene Classification, 음향 장면 분류): 오디오가 녹음된 환경(장면)을 분류 (예: 거리, 숲). AQA (Audio Question Answering, 오디오 질문 답변): 오디오 내용에 대해 질문하면 텍스트로 답변 (예: "밖에 무슨 소리가 나니?"). MNA (Music Note Analysis, 음악 노트 분석): 음악의 피치(pitch), 벨로서티(velocity) 등 분석. MC (Music Captioning, 음악 캡셔닝): 음악을 설명하는 텍스트 생성. MIC (Music Instruments Classification, 악기 분류), MGR (Music Genre Recognition, 음악 장르 인식) 등.

2025/07/07 9:19 AM

Speech LM 이란?

Chat GPT를 필두로 텍스트 기반의 생성형 언어모델이 성공하자 이를 활용한 멀티모달 인공지능에 대한 연구가 활발해지고 있습니다. (멀티모달이란, 텍스트 외에 사진이나 소리 등을 입력으로 함께 받아 이를 함께 활용하는 인공지능 모델을 의미) 오늘은 그 중에서 음성을 같이 활용한 SLM(Speech Language Model)에 대하여 포스팅 하도록 하겠습니다. SLM은 최근에 급격하게 연구가 이루어지고 있는 분야로, 사실 이를 부르는 용어도 통일 되지 않았습니다. speech LM 이라고도 불리고, Spoken LM이라고도 불리며 Large Audio Language Model(LALM) 이라고 불리기도 한답니다. 이를 공부하기 위해 저희는 “On The Landscape of Spoken Language Models: A Comprehensive Survey” 이라는 논문을 가지고 SLM의 개념에 대해서 공부를 하였고, 이를 간략하게나마 공유하고자 합니다. SLM의 구성요소 위 그림은 음성을 이용한 SLM에 대한 여러 카테고리와 구성 요소들에 대한 도식입니다. 음성 입력만 있고, 음성 출력만 있는 순수한 “Pure Speech LM”, 음성과 텍스트 입력이 되고, 출력은 텍스트만 있는 “speech-aware text LM” 그리고, 입출력 모두 음성, 텍스트가 가능한 “speech+text LM”으로 구분할 수 있겠습니다. 위 그림의 가운데에 있는 Sequence Model이 흔히들 말하는 LLM 입니다. 여기에는 Meta에서 개발한 LLAMA, 중국의 알리바바에서 개발한 Qwen 등 다양한 LLM 모델이 들어갈 수 있습니다. 그리고 이 모델에 input으로 텍스트나 음성을 넣기 위한 encoder와 소리를 생성하기 위한 decoder가 있습니다. 보통은 LLM 자체만으로 너무 큰 모델이기 때문에 인코더, 디코더, sequence model을 각각 따로 학습 시킨 뒤 (보통은 학습 되어 있는 모델을 다운 받습니다.) 이를 결합해주는 어댑터 부분만을 학습시키는 경우가 많습니다. 음성 인코더로 사용할 수 있는 모델은 많이 있는데, 음성에서 전통적인 특징 추출 방법(푸리에 변환 - 멜 스펙트로그램 등)을 이용한 방법, 음성인식기에서 앞부분을 취해 음성에 대한 임베딩을 추출할 수 있는 부분 등 여러 방법이 있습니다. 음성은 텍스트에 비해 특정 시간 동안 동일한 의미의 임베딩이 추출될 가능성이 높고, 같은 내용을 담은 시퀀스에 대해 텍스트와 길이가 다르기 때문에 이를 적절히 압축해 줄 수 있는것이 또 하나의 연구거리 입니다. 어댑터로도 선형 변환을 이용한 어댑터, CNN 레이어를 이용한 어댑터 등 다양한 종류를 선택할 수 있습니다. 좋은 어댑터를 고르면, SLM에 대한 특별한 데이터셋 없이 음성인식 학습을 위한 데이터셋 만으로 모델을 잘 학습할수 있다고 합니다. SLM의 음성 토큰 생성 전략 sequence model도 기존 LLM과 달리 음성 특징에 대한 토큰을 생성해내야 하기 때문에 특별한 작업이 필요합니다. 생성해야 할 음성에는 언어적인 정보 뿐 아니라 장단이나 음색과 같은 소리의 특성적인 부분도 있기 때문에 이를 coarse token, finer token 등 여러 부분에 대한 token으로 나누어 생성해내도록 합니다. coarse token은 언어정보가 들어있고, finer token에는 소리의 특성이 들어있습니다. 위의 그림처럼 크게 4가지 전략을 이용하여 생성해낼 수 있습니다. 음성과 텍스트를 동시에 출력해야 한다고 한다면, 동일한 시퀀스 동안 동일한 양의 정보를 출력해주는 것도 중요합니다. 이를 위해 또 위와 같이 4가지 방법으로 padding을 주어 텍스트와 음성 토큰의 align을 맞출 수 있다고 합니다. (c), (d) 방법은 음성-텍스트 간의 align이 맞는 데이터셋이 추가로 필요합니다. 이런 token을 생성해냈으면 이를 소리로 변환해주는 decoder를 학습하여 적용합니다. 학습을 하는 방법으로는 pre-training과 post-training의 단계를 거칩니다.

2025/06/14 11:26 PM

[논문 리뷰] From Local to Global: A Graph RAG Approach to Query-Focused Summarization

안녕하세요! 오늘은 2024년 4월에 공개된 RAG 및 요약 관련 논문을 소개드리고자 합니다! 소개드리는 논문은 기존의 텍스트 요약 모델과 차별화된 접근 방식을 통해 대규모 데이터셋에서도 효율적이고 포괄적인 질의 중심 요약을 가능하게 하는 Graph RAG 입니다. 이 연구는 대규모 데이터셋 전반의 주제나 관계를 요약하는 데 강점을 보입니다. 특히, Retrieval-Augmented Generation(RAG)과 그래프 이론의 결합을 통해 텍스트 데이터를 커뮤니티 단위로 요약하고, 이를 바탕으로 심층적이고 다각적인 응답을 제공할 수 있다는 점에서 학술 및 비즈니스 인텔리전스 분야의 데이터 분석에 혁신적인 영향을 미칠 것으로 기대됩니다. Microsoft에서 작성하여 대규모 데이터 분석의 효율성과 인터랙티브한 인사이트 제공 측면에서 향후 더 큰 영향력을 발휘할 것으로 예상됩니다. Abstract 논문은 기존 RAG(Retrieval-Augmented Generation) 방식이 대규모 텍스트 코퍼스 전체에 대한 글로벌 질문을 해결하는 데 한계를 보인다고 지적합니다. 예를 들어, "데이터셋의 주요 주제는 무엇인가?"와 같은 질문은 개별적인 정보 검색이 아니라 질문에 맞춰 요약을 수행하는 작업(QFS, Query-Focused Summarization)을 요구하기 때문에, 기존 RAG의 접근 방식으로는 이러한 질문에 적합한 답변을 제공하기 어렵습니다. 기존의 QFS 접근 방식도 대규모 텍스트를 다루기에는 한계가 있었기 때문에, 이 논문에서는 이러한 문제를 해결할 수 있는 Graph RAG 방식을 제안합니다. Graph RAG는 엔티티 지식 그래프(Entity Knowledge Graph)를 기반으로, 데이터셋 내의 밀접하게 관련된 엔티티들을 커뮤니티로 그룹화하고, 각 커뮤니티에 대해 Community Summary를 사전 생성합니다. 사용자가 질문을 하면, 각 커뮤니티의 요약을 활용해 부분적인 응답을 생성한 뒤, 이를 최종적으로 통합하여 포괄적이고 일관된 답변을 제공합니다. 이 접근 방식은 기존 QFS와 달리 대규모 텍스트를 효과적으로 다룰 수 있다는 점에서 차별화됩니다. 특히, 대규모 데이터셋에서도 효율적인 글로벌 질문 처리가 가능하도록 설계되어, 전체 텍스트 코퍼스에서 중요한 주제나 패턴을 도출하는 데 유리합니다. Introduction 인간이 도메인 지식을 바탕으로 복잡한 의미를 이해하는 방식처럼, RAG(Retrieval-Augmented Generation)도 이러한 인간의 사고 과정을 적용하여 텍스트에서 정보를 추출하고자 합니다. 현재 LLM(Large Language Models)을 사용한 문서의 국소적 요약(Local summarization)은 비교적 간단해졌지만, 특정 질문에 맞춘 요약(Query-Focused Abstractive Summarization, QFS)에 대한 연구는 여전히 부족한 상황입니다. LLM은 긴 컨텍스트를 효과적으로 처리하는 데에 한계가 있습니다. 이 문제를 해결하기 위해, 본 연구에서는 사전 인덱싱을 통한 QFS 방식을 제안합니다. 이를 위해 LLM을 활용해 지식 그래프(Knowledge Graph)를 자동으로 구축하고, 그 그래프를 통해 전체 데이터셋을 요약하는 Graph RAG 접근 방식을 제시합니다. 이 과정에서 그래프 인덱스를 단순히 구조화하고, 검색하며, 노드 간의 연결을 탐색하는 것에 집중하지 않고, 대신 노드와 연관된 모듈화된 그룹을 탐지하고 분석하는 것에 중점을 둡니다. 이렇게 탐지된 그룹은 병렬로 요약이 수행되며, 각 부분적인 요약 결과를 다시 종합하여 최종적인 글로벌 요약을 제공합니다. 본 연구에서는 팟캐스트 전사본과 뉴스 기사 데이터를 활용하여, Graph RAG 접근 방식과 기존 방법들을 평가하였습니다. 그 결과, 제안된 방법이 더 포괄적이고 다양한 답변을 제공하며, 전체 데이터셋에 대한 질문에 더 효과적으로 답변할 수 있음을 보여줍니다. Graph RAG Approach & Pipeline 사전 용어 정리 Node: Entity와 동일하며 사람, 지명, 장소 등을 의미합니다.

레

레오

2024/10/31 10:52 AM

[논문 리뷰] NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

본 글은 롯데 아이멤버[언어>업무도우미>텍스트 요약, 번역, 교정]를 활용하여 작성했습니다. 안녕하세요 통통한 아이멤버입니다! 요즘 인공지능을 사용하면서 대용량 텍스트를 입력으로 사용하는 경우가 많아지고 있습니다! 예를 들어, 책 한 권 분량의 내용, 법률 관련 문서, 대용량 데이터베이스 등의 정보를 입력하여 필요한 내용을 찾는 경우가 늘어나고 있습니다. 이러한 요구에 맞춰 많은 기업들이 긴 컨텍스트(long context)를 처리할 수 있는 모델을 출시하고 있습니다. 예를 들어, GPT-4는 128k, Claude-3는 200k, Llama 3.1는 128k를 지원하여 책 한 권 분량의 입력을 처리할 수 있습니다.📕 하지만 이렇게 긴 문장을 처리할 수 있어도, 원하는 내용을 정확히 찾지 못한다면 효율성이 크게 떨어지게 됩니다. 😅 긴 문장에서 필요한 정보를 찾는 능력을 평가하기 위해, 모래사장에서 바늘을 찾는 것에 비유한 NeedleBench 논문이 발표되었습니다. 🏖️🪡 해당 벤치마크 관련 논문이 어떤 내용을 담고 있는지 확인해 보겠습니다! Abstract 대형 언어 모델(LLM)의 능력을 평가할 때, 원본의 긴 문서에서 사용자의 질의와 관련된 내용을 긴 텍스트 기반의 질문에서 찾아 대답할 수 있는 것은 중요한 평가 요소입니다. NeedleBench는 긴 문서에서 사용자 질의를 정확하게 체크할 수 있는지를 확인할 수 벤치마크를 소개합니다. 다양한 길이(4k, 8k, 32k, 128k, 200k, 1000k 이상)의 문장과 긴 문맥 능력을 평가하는 일련의 과제를 포함하는 테스트입니다. NeedleBench 프레임워크를 사용하여 주요 오픈 소스 모델이 질문과 관련된 주요 정보를 얼마나 잘 식별하고, 긴 텍스트 추론에 적용하는지를 평가합니다. 긴 글 작업에서 발생할 가능성이 있는 논리적 추론 과제를 평가할 수 있는 Ancestral Trace Challenge (ATC)도 제안합니다. 복잡한 긴 문맥 상황을 처리하는 LLM을 평가하는 간단한 방법을 제공합니다. 소개한 벤치마크를 통해 LLM이 실용적인 긴 문맥을 이용한 작업에 상당한 개선의 여지가 있음을 알 수 있으며, 긴 문맥 작업에서 발생할 가능성이 높은 논리적 추론 과제의 복잡성에 어려움을 겪고 있음을 확인할 수 있습니다.

통

통통한아이멤버

2024/07/29 11:51 AM

[논문 리뷰] QWEN2 TECHNICAL REPORT

안녕하세요! 통통한아이멤버입니다! 요즘 오픈소스 LLM은 춘추전국 시대를 겪고 있는데요 (Llama, Qwen, Mixtral...) 시중에 사용할 수 있는 대부분의 모델은 한국어 성능이 부족한 이슈가 존재합니다. 이런 한국어 오픈소스 LLM 갈증을 해결해 줄 수도 있는 한국어 성능이 좋은 LLM인 Qwen2가 2024년 06월 06일에 발표되었습니다. 위의 이미지에서 확인할 수 있듯이 라마3 70B의 성능을 뛰어넘는 성능을 보여주고 있고, Qwen/Qwen2-72B-Instruct, Qwen/Qwen2-7B, Qwen/Qwen2-7B-Instruct-GPTQ-Int8 등등 다양한 형태의 모델을 제공하고 있습니다. 해당 모델에 대한 TECHNICAL REPORT가 24년 7월 15일에 발표되어 한 번 살펴보겠습니다. Abstract 알리바바는 대형 언어 모델(LLM)인 Qwen2 시리즈를 소개합니다. 해당 모델은 0.5B~72B의 다양한 매개변수를 가지는 모델를 공개합니다. Qwen2는 다양한 오픈소스 LLM을 성능을 능가하며 선행 모델인 Qwen1.5보다 뛰어난 성능을 보이고 잇습니다. 주요 모델인 Qwen2-72B는 MLU에서 84.2점, GPQA에서 37.9점, HumanEval에서 64.6점, GSM8K에서 89.5점, BBH에서 82.4점을 기록했습니다. 30개 언어에 능숙한 다국어 능력을 보여주며, 영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등 다양한 언어를 지원합니다. 혁신적인 모델 발전을 위해 모델 가중치를 공개하여 다양한 연구 작업을 촉진합니다. Introduction LLM 등장 이후 LLM은 엄청난 관심을 받게 됩니다. 점점 더 많은 경쟁력 있는 LLM이 OPENAI의 GPT 시리즈와 유사한 발전을 추구하고 있습니다. Qwen, Mistral, Gemma등과 같이 오픈 가중치 방식으로 출시되었습니다. Qwen은 언어, 비전, 오디오 모델과 같이 다양한 모델을 출시하였고 이번에 최신 Qwen2를 소개합니다. Qwen2는 Transformer 아키텍처에 기반을 두고 다음 토큰을 예측하는 LLM 시리즈 중 하나입니다. 해당 모델 시리즈는 기본 언어 모델(사람의 선호도에 맞춰지지 않은 사전 학습 모델), instruction-tuned 모델을 출시합니다. 0.5억, 1.5억, 7억, 72억 매개변수를 가진 모델 4가지를 출시하였습니다. 이 중 0.5억, 1.5억 모델은 휴대용 장치에 쉽게 배포할 수 있게 설게되었습니다. 모든 모델은 다양한 도메인과 언어를 포함하는 7조 개 이상의 토큰으로 구성된 고품질 데이터셋에서 사전 학습되었습니다. 이후 훈련에 대해서는 모든 모델은 supervised된 fine-tuning과 DPO를 거쳐 학습함으로써 인간의 선호도에 맞춰져있습니다. 오픈, 독점 모델을 포함한 다양한 모델들과 비교분석을 수행하였습니다. 다양한 벤치마크에서 Qwen2는 경쟁 모델을 능가하는 것을 확인했습니다. TOKENIZER & MODEL Qwen2의 토크나이저와 모델 설계를 소개합니다. TOKENIZER

통

통통한아이멤버

2024/07/20 9:02 PM

[논문 리뷰] Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

**해석과 맞춤법은 아이멤버 업무도우미를 이용하였습니다. 안녕하세요 이번 논문 리뷰를 맞게 된 통통한아이멤버입니다. 제가 이번에 리뷰할 논문은 "Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling"입니다. Mamba, State Space Model (SSM), with Sliding Window Attention (SWA)를 합친 SAMBA로 무한한 context 길이를 가지는 sequence를 modeling하는 것을 해결했습니다. 위의 이미지에서 볼 수 있듯이 최대 1M 토큰까지 예측 성능 향상, 64K 디코딩에서 최신 아키텍보다 빠른 디코딩 성능을 확인했습니다. 이후 어떠한 점이 해당 아키텍처가 성능과 속도를 모두 잡았는지 살펴보겠습니다. SSM의 약점을 보완한 하이브리드 접근법 Attention 기반 모델이 가진 장기 의존성 문제를 해결하기 위해 SSM을 이용한 새로운 모델이 제안되었고, 이는 서형 계산 복잡성과 더 긴 Sequence를 이해할 수 있게 되었습니다. 하지만 SSM 기반 모델들은 Markovian nature 때문에 memory recall에 문제가 있으며 retrieval-related tasks 굉장한 한계를 노출했습니다. 이를 해결하기 위해 어텐션 메커니즘과 혼합하는 다양한 방식이 탐구되었지만 선형 시간 복잡성 때문에 context extrapolation를 수행하지 못합니다. 해당 논문은 SSM과 어텐션 기반 모델의 강점을 조화시키면서 선형 시간 복잡성으로 무제한 context extrapolation을 달성하는 간단한 신경 아키텍처인 SAMBA를 소개합니다. 방법론 아키텍처 Mamba, Sliding Window Attention(SWA), 다층 퍼셉트론(MLP)으로 구성된 하이브리드 전략을 구성합니다. Mamba는 반복되는 시퀀스 구조를 포착하고, SWA는 메모리를 정밀하게 기억하며, MLP는 사실적 지식을 기억하는 역할을 합니다.

통

통통한아이멤버

2024/06/20 10:31 AM