Sign In
Subscribe

Paper Review

논문에 대한 리뷰를 하는 페이지입니다.
[논문 리뷰] LLM은 정답을 알면서도 거짓말한다? 할루시네이션의 내부 메커니즘 분석
논문: LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations 저자: Google Research & Apple (2024년 10월)https://arxiv.org/pdf/2410.02707 코드: https://github.com/technion-cs-nlp/LLMsKnow 원문: https://arxiv.org/pdf/2410.02707코드: https://github.com/technion-cs-nlp/LLMsKnow 코드: https://github.com/technion-cs-nlp/LLMsKnow 1. 들어가며 대규모 언어 모델(LLM)의 할루시네이션(Hallucination)은 현재 AI 시스템의 가장 중요한 과제 중 하나입니다. ChatGPT나 Claude와 같은 모델이 사실과 다른 정보를 마치 사실인 것처럼 생성하는 현상은 단순한 오류를 넘어 신뢰성 문제로 이어집니다. 그동안 우리는 LLM이 할루시네이션을 보이는 이유를 "충분한 지식이 없어서" 혹은 "학습 데이터가 부족해서"라고 생각해 왔습니다. 하지만 최근 Google Research와 Apple의 공동 연구는 이러한 통념을 뒤집는 놀라운 발견을 제시합니다. LLM은 정답을 내부적으로 알고 있으면서도 틀린 답변을 생성한다는 것입니다. 이 논문은 LLM의 내부 표현(internal representation)을 분석하여 할루시네이션의 본질을 이해하고자 한 획기적인 연구입니다. 기존의 블랙박스 접근법에서 벗어나 모델의 내부 메커니즘을 직접 들여다봄으로써, 할루시네이션 문제 해결의 새로운 방향을 제시하고 있습니다. 2. 연구의 핵심 질문과 방법론 2.1 기존 접근법의 한계 그동안 할루시네이션 탐지를 위해 시도된 방법들은 주로 외부적 관찰에 의존했습니다. 확률 기반 접근 모델이 생성하는 각 토큰의 확률값을 측정 낮은 확률 = 불확실성으로 해석 한계: 모델이 틀린 답을 매우 자신감 있게 말하는 경우 탐지 불가
  • 레모나
👍
1
[논문리뷰] LLM도 레벨마다 잡기 좋은 몬스터(강화학습 데이터)가 있다
원문: https://arxiv.org/pdf/2509.19803 이번에 리뷰할 논문은 Variance-based curriculum reinforcement learning for large language models. 줄여서 VCRL 입니다. 제목에서 확인할 수 있듯이 분산 기반의 강화학습 커리큘럼 러닝입니다. 연구 배경과 문제 제기 먼저 현재 상황을 살펴보겠습니다. 기존의 롤아웃 기반 강화학습 방법들(GRPO, DAPO, GSPO 등)은 LLM이 서로 다른 난이도의 샘플을 학습하는 능력을 명시적으로 고려하지 못하는데, 이는 쉬운 것부터 어려운 것으로 진행되는 수학적 추론 과제의 인간 인지 과정과 반대됩니다. 마치 Lv.1 초보 용사에게 슬라임부터 드래곤까지 무작위로 만나게 하는 것과 같습니다. 너무 쉬운 문제는 학습 가치가 없고, 너무 어려운 문제는 학습이 불가능합니다. 이는 인간의 학습 과정과도 맞지 않죠. 우리는 보통 쉬운 것부터 시작해서 점차 어려운 것으로 나아갑니다. 이것이 바로 이 논문에서 해결하고자 하는 핵심 문제입니다. 기존 강화학습 방법론의 한계 기존의 대표적인 강화학습 방법들을 살펴보겠습니다. GRPO는 여러 개의 응답을 생성해서 상대적으로 비교하는 방법이고, DAPO는 여기에 몇 가지 개선을 더한 것입니다. GSPO는 토큰 레벨이 아닌 시퀀스 레벨에서 최적화를 수행합니다. 하지만 이들 모두 공통적인 문제가 있습니다. 바로 샘플의 난이도를 명시적으로 고려하지 않는다는 점입니다. 모델의 현재 능력에 맞는 '적절한' 문제를 선택하지 못하는 것이죠. VCRL 용사 두두등장 이제 오늘의 주인공인 VCRL을 소개하겠습니다. VCRL은 Variance-based Curriculum Reinforcement Learning의 약자로, 분산 기반 커리큘럼 강화학습입니다. 핵심 아이디어는 간단합니다. 그룹 보상의 '분산'을 이용해서 샘플의 난이도를 측정하고, 현재 모델에게 적절한 난이도의 샘플만 선택적으로 학습한다는 것입니다. 마치 RPG 게임에서 자신의 레벨에 맞는 몬스터만 골라서 사냥하는 것처럼요.
  • 레모나
👍
1
[논문 리뷰] Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering
이번에 소개드릴 내용은 정답 라벨링이 되지 않은 음성 데이터 (unlabeled speech data)를 인위적으로 라벨링 및 필터링 하는 방법을 공유하고자 합니다. 공유 내용은 "Efficient Data Selection for Domain Adaptation of ASR Using Pseudo-Labels and Multi-Stage Filtering" 논문입니다. 인공지능에서는 데이터에 레이블이 필수적인데요. 레이블 작업은 많은 비용을 유발합니다. 예를 들어 100시간에 음성 데이터를 레이블 하면 대략 3천만원 정도가 필요합니다. 레이블 작업을 줄이기 위한 연구가 Pseudo-Labels(의사레이블, 가짜레이블)입니다. 제가 소개할 논문은 Pseudo-Labels과 Pseudo-Labels을 통해 얻은 데이터를 필터링 하는 논문입니다. 연구 배경 및 문제 정의 최신 ASR 모델(Whisper, Conformer, Zipformer 등)은 대규모 데이터로 학습되어 일반적인 성능은 우수하나, 도메인 특화(domain-specific) 상황에서는 성능 저하가 발생. 실제 산업 환경(콜센터, 의료, 보험 등)에서는 라벨링 비용이 높아 소량의 정답 데이터만 확보 가능하고, 수천 시간 규모의 비라벨 데이터는 활용하기 어려움. 따라서, 효율적인 데이터 선택 전략을 통해 고품질의 학습용 오디오 세그먼트를 얻고, 얻은 데이터로 도메인 특화 ASR모델을 만드는 연구 제안 방법 WER 기반 선택 - WER 예측 연구에서 영감을 받아, SVM(Support Vector Machine) 분류기를 훈련하여 음성 세그먼트를 low-WER 클래스와 high-WER 클래스로 분류합니다. 직접적인 WER 예측 대신 high-WER 세그먼트를 필터링하여 고품질 데이터를 우선합니다. low-WER 기준은 WER ≤ 50%로 정의됩니다. CER 기반 선택 - 레이블링되지 않은 음성 코퍼스는 Whisper Medium, Zipformer, Nemo Parakeet 세 가지 ASR 모델을 사용하여 전사됩니다. 각 세그먼트에 대해 모든 모델 간의 CER이 계산되며, 평균 CER이 선택 기준으로 사용됩니다. 평균 CER이 미리 정의된 임계값 5%미만인 세그먼트만 파인튜닝에 사용됩니다.
  • 박희용
👍❤️
2
Spoken-LM : SALMONN
안녕하십니까! 이번에 살펴 볼 논문은 SALMONN: TOWARDS GENERIC HEARING ABILI- TIES FOR LARGE LANGUAGE MODELS 입니다. 지난번의 QWEN Audio와 공통점과 차이점에 대해서 확인해보시면 더욱 재미있을 것 같습니다. 1. 모델 아키텍처 SALMONN은 오디오와 텍스트 토큰을 입력으로 받아 텍스트 토큰을 생성해내는 모델입니다. 구조는 크게 오디오 인코더들, 오디오 인코더의 아웃풋을 오디오 토큰으로 변환해주는 Q-Former, 토큰 시퀀스를 입력으로 받아, 텍스트 토큰을 출력해주는 Sequence model (vicuna 사용) 이를 효율적으로 학습할 수 있게 해주는 LoRA 어댑터 입니다. 학습 과정에서 다른 부분들은 학습하지 않고 Q-Former, LoRA 만 학습하기 때문에 전체 모델 파라미터의 0.24%정도만 학습을 하면 됩니다. 1-1. 오디오 인코더 음성인식기로 학습된 Whisper V2 모델의 encoder와 소리(음성 뿐 아니라 사운드에 대한 전반적인)를 토큰으로 변환해주는 Beats를 합쳐서 오디오를 인코딩해줍니다. whisper가 음성인식 task에 대하여 포커싱을 두어 학습되었기 때문에 비음성에 대한 모델링은 미흡할것이라는 점을 Beats의 인코더로 보완을 하여 동일한 크기로 sub-sampling 되기 때문에 각 인코더의 아웃풋을 이어붙여서 사용할 수 있었습니다. 1-2. Q-Former 이렇게 추출된 오디오 임베딩을 Q-Former를 통해 오디오 토큰으로 변환되게 됩니다. Q-former는 트랜스포머 구조를 하고 있는데, Query Vector의 후보를 만들어두고, 이를 인풋 Key,Value 벡터들과 cross-attention을 하여 인풋을 효율적으로 압축할 수 있도록 하는 모델입니다. 1-3. Vicuna, LoRA SALMONN에서 백으로 사용한 Vicuna는 Meta의 LLAMA를 멀티턴 대화를 더 잘 처리할 수 있도록 finetuning한 모델입니다. SALMONN에서는 13B, 7B의 vicuna 모델을 사용합니다.
  • N
    Ne
👍😍
3
Spoken-LM : Qwen-Audio
안녕하십니까! 이번에 소개할 논문은 “**Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models” 입니다.** qwen audio 모델은 중국의 알리바바 그룹에서 만든 Speech Aware Language Model 입니다. (speech aware language model은 이전 지식 공유때 소개한 것 처럼 음성을 텍스트와 같이 인풋으로 넣고, 텍스트만 출력으로 받는 형태의 언어모델입니다.) 모델의 큰 구조는 Open AI 에서 만든 음성인식기인 Whisper 의 encoder와 decoder 대신 QwenLM을 붙인 형태입니다. Qwen Audio 모델은 음성 인식 뿐 아니라 다양한 태스크를 하나의 모델에서 수행할 수 있습니다. 이런 하나의 모델에서 인식, 번역, 오디오 캡셔닝 등 다양한 태스크를 수행할 수 있는데, 다양한 영역에서 높은 성능을 달성했다고 합니다. 하나의 모델에서 여러 테스크를 수행하기 위해 여러 도메인의 데이터로 학습을 하게 되면, 도메인이 맞지 않아 학습에 어려움을 겪는데, 이를 one-to-many problem이라고 합니다. Qwen Audio에서는 one-to-many problem을 해결하기 위해 계층적 태그를 사용하였습니다. 계층적 태깅은 Qwen Audio 모델이 수행할 수 있는 태스크를 대분류, 소분류로 나누고, input, output 언어의 토큰을 공통으로 주어 여러 태스크의 데이터셋에서 공통된 토큰으로 학습하여 유사한 작업 간의 지식 공유를 극대화하여 성능을 향상시켰습니다. 동시에, 모델의 one-to-many problem을 방지하기 위해 다양한 작업과 출력 형식을 구분할 수 있도록 보장하였습니다. Qwen Audio 의 task를 입력 오디오 출력 텍스트의 내용이 완벽히 일치해야 하는 경우 (전사와 변역 태스크)와 입력 오디오를 참고하여 텍스트를 생성해내는 경우로 크게 구분하였고, 다음으로 입력 언어, 태스크, 출력 언어 순으로 language model의 입력 토큰을 정의하였습니다.
  • N
    Ne
1
👍
2
Speech LM 이란?
Chat GPT를 필두로 텍스트 기반의 생성형 언어모델이 성공하자 이를 활용한 멀티모달 인공지능에 대한 연구가 활발해지고 있습니다. (멀티모달이란, 텍스트 외에 사진이나 소리 등을 입력으로 함께 받아 이를 함께 활용하는 인공지능 모델을 의미) 오늘은 그 중에서 음성을 같이 활용한 SLM(Speech Language Model)에 대하여 포스팅 하도록 하겠습니다. SLM은 최근에 급격하게 연구가 이루어지고 있는 분야로, 사실 이를 부르는 용어도 통일 되지 않았습니다. speech LM 이라고도 불리고, Spoken LM이라고도 불리며 Large Audio Language Model(LALM) 이라고 불리기도 한답니다. 이를 공부하기 위해 저희는 “On The Landscape of Spoken Language Models: A Comprehensive Survey” 이라는 논문을 가지고 SLM의 개념에 대해서 공부를 하였고, 이를 간략하게나마 공유하고자 합니다. SLM의 구성요소 위 그림은 음성을 이용한 SLM에 대한 여러 카테고리와 구성 요소들에 대한 도식입니다. 음성 입력만 있고, 음성 출력만 있는 순수한 “Pure Speech LM”, 음성과 텍스트 입력이 되고, 출력은 텍스트만 있는 “speech-aware text LM” 그리고, 입출력 모두 음성, 텍스트가 가능한 “speech+text LM”으로 구분할 수 있겠습니다. 위 그림의 가운데에 있는 Sequence Model이 흔히들 말하는 LLM 입니다. 여기에는 Meta에서 개발한 LLAMA, 중국의 알리바바에서 개발한 Qwen 등 다양한 LLM 모델이 들어갈 수 있습니다. 그리고 이 모델에 input으로 텍스트나 음성을 넣기 위한 encoder와 소리를 생성하기 위한 decoder가 있습니다. 보통은 LLM 자체만으로 너무 큰 모델이기 때문에 인코더, 디코더, sequence model을 각각 따로 학습 시킨 뒤 (보통은 학습 되어 있는 모델을 다운 받습니다.) 이를 결합해주는 어댑터 부분만을 학습시키는 경우가 많습니다.
  • N
    Ne
1
👍❤️
5
[논문 리뷰] From Local to Global: A Graph RAG Approach to Query-Focused Summarization
안녕하세요! 오늘은 2024년 4월에 공개된 RAG 및 요약 관련 논문을 소개드리고자 합니다! 소개드리는 논문은 기존의 텍스트 요약 모델과 차별화된 접근 방식을 통해 대규모 데이터셋에서도 효율적이고 포괄적인 질의 중심 요약을 가능하게 하는 Graph RAG 입니다. 이 연구는 대규모 데이터셋 전반의 주제나 관계를 요약하는 데 강점을 보입니다. 특히, Retrieval-Augmented Generation(RAG)과 그래프 이론의 결합을 통해 텍스트 데이터를 커뮤니티 단위로 요약하고, 이를 바탕으로 심층적이고 다각적인 응답을 제공할 수 있다는 점에서 학술 및 비즈니스 인텔리전스 분야의 데이터 분석에 혁신적인 영향을 미칠 것으로 기대됩니다. Microsoft에서 작성하여 대규모 데이터 분석의 효율성과 인터랙티브한 인사이트 제공 측면에서 향후 더 큰 영향력을 발휘할 것으로 예상됩니다. Abstract 논문은 기존 RAG(Retrieval-Augmented Generation) 방식이 대규모 텍스트 코퍼스 전체에 대한 글로벌 질문을 해결하는 데 한계를 보인다고 지적합니다. 예를 들어, "데이터셋의 주요 주제는 무엇인가?"와 같은 질문은 개별적인 정보 검색이 아니라 질문에 맞춰 요약을 수행하는 작업(QFS, Query-Focused Summarization)을 요구하기 때문에, 기존 RAG의 접근 방식으로는 이러한 질문에 적합한 답변을 제공하기 어렵습니다. 기존의 QFS 접근 방식도 대규모 텍스트를 다루기에는 한계가 있었기 때문에, 이 논문에서는 이러한 문제를 해결할 수 있는 Graph RAG 방식을 제안합니다. Graph RAG는 엔티티 지식 그래프(Entity Knowledge Graph)를 기반으로, 데이터셋 내의 밀접하게 관련된 엔티티들을 커뮤니티로 그룹화하고, 각 커뮤니티에 대해 Community Summary를 사전 생성합니다. 사용자가 질문을 하면, 각 커뮤니티의 요약을 활용해 부분적인 응답을 생성한 뒤, 이를 최종적으로 통합하여 포괄적이고 일관된 답변을 제공합니다.
  • 레오
1
👍❤️
8
[논문 리뷰] NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
본 글은 롯데 아이멤버[언어>업무도우미>텍스트 요약, 번역, 교정]를 활용하여 작성했습니다. 안녕하세요 통통한 아이멤버입니다! 요즘 인공지능을 사용하면서 대용량 텍스트를 입력으로 사용하는 경우가 많아지고 있습니다! 예를 들어, 책 한 권 분량의 내용, 법률 관련 문서, 대용량 데이터베이스 등의 정보를 입력하여 필요한 내용을 찾는 경우가 늘어나고 있습니다. 이러한 요구에 맞춰 많은 기업들이 긴 컨텍스트(long context)를 처리할 수 있는 모델을 출시하고 있습니다. 예를 들어, GPT-4는 128k, Claude-3는 200k, Llama 3.1는 128k를 지원하여 책 한 권 분량의 입력을 처리할 수 있습니다.📕 하지만 이렇게 긴 문장을 처리할 수 있어도, 원하는 내용을 정확히 찾지 못한다면 효율성이 크게 떨어지게 됩니다. 😅 긴 문장에서 필요한 정보를 찾는 능력을 평가하기 위해, 모래사장에서 바늘을 찾는 것에 비유한 NeedleBench 논문이 발표되었습니다. 🏖️🪡 해당 벤치마크 관련 논문이 어떤 내용을 담고 있는지 확인해 보겠습니다! Abstract 대형 언어 모델(LLM)의 능력을 평가할 때, 원본의 긴 문서에서 사용자의 질의와 관련된 내용을 긴 텍스트 기반의 질문에서 찾아 대답할 수 있는 것은 중요한 평가 요소입니다. NeedleBench는 긴 문서에서 사용자 질의를 정확하게 체크할 수 있는지를 확인할 수 벤치마크를 소개합니다. 다양한 길이(4k, 8k, 32k, 128k, 200k, 1000k 이상)의 문장과 긴 문맥 능력을 평가하는 일련의 과제를 포함하는 테스트입니다. NeedleBench 프레임워크를 사용하여 주요 오픈 소스 모델이 질문과 관련된 주요 정보를 얼마나 잘 식별하고, 긴 텍스트 추론에 적용하는지를 평가합니다. 긴 글 작업에서 발생할 가능성이 있는 논리적 추론 과제를 평가할 수 있는 Ancestral Trace Challenge (ATC)도 제안합니다. 복잡한 긴 문맥 상황을 처리하는 LLM을 평가하는 간단한 방법을 제공합니다. 소개한 벤치마크를 통해 LLM이 실용적인 긴 문맥을 이용한 작업에 상당한 개선의 여지가 있음을 알 수 있으며, 긴 문맥 작업에서 발생할 가능성이 높은 논리적 추론 과제의 복잡성에 어려움을 겪고 있음을 확인할 수 있습니다.
  • 통통한아이멤버
❤️👍
2
[논문 리뷰] QWEN2 TECHNICAL REPORT
안녕하세요! 통통한아이멤버입니다! 요즘 오픈소스 LLM은 춘추전국 시대를 겪고 있는데요 (Llama, Qwen, Mixtral...) 시중에 사용할 수 있는 대부분의 모델은 한국어 성능이 부족한 이슈가 존재합니다. 이런 한국어 오픈소스 LLM 갈증을 해결해 줄 수도 있는 한국어 성능이 좋은 LLM인 Qwen2가 2024년 06월 06일에 발표되었습니다. 위의 이미지에서 확인할 수 있듯이 라마3 70B의 성능을 뛰어넘는 성능을 보여주고 있고, Qwen/Qwen2-72B-Instruct, Qwen/Qwen2-7B, Qwen/Qwen2-7B-Instruct-GPTQ-Int8 등등 다양한 형태의 모델을 제공하고 있습니다. 해당 모델에 대한 TECHNICAL REPORT가 24년 7월 15일에 발표되어 한 번 살펴보겠습니다. Abstract 알리바바는 대형 언어 모델(LLM)인 Qwen2 시리즈를 소개합니다. 해당 모델은 0.5B~72B의 다양한 매개변수를 가지는 모델를 공개합니다. Qwen2는 다양한 오픈소스 LLM을 성능을 능가하며 선행 모델인 Qwen1.5보다 뛰어난 성능을 보이고 잇습니다. 주요 모델인 Qwen2-72B는 MLU에서 84.2점, GPQA에서 37.9점, HumanEval에서 64.6점, GSM8K에서 89.5점, BBH에서 82.4점을 기록했습니다. 30개 언어에 능숙한 다국어 능력을 보여주며, 영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등 다양한 언어를 지원합니다. 혁신적인 모델 발전을 위해 모델 가중치를 공개하여 다양한 연구 작업을 촉진합니다. Introduction LLM 등장 이후 LLM은 엄청난 관심을 받게 됩니다. 점점 더 많은 경쟁력 있는 LLM이 OPENAI의 GPT 시리즈와 유사한 발전을 추구하고 있습니다. Qwen, Mistral, Gemma등과 같이 오픈 가중치 방식으로 출시되었습니다. Qwen은 언어, 비전, 오디오 모델과 같이 다양한 모델을 출시하였고 이번에 최신 Qwen2를 소개합니다. Qwen2는 Transformer 아키텍처에 기반을 두고 다음 토큰을 예측하는 LLM 시리즈 중 하나입니다.
  • 통통한아이멤버
👍❤️
2
[논문 리뷰] Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
**해석과 맞춤법은 아이멤버 업무도우미를 이용하였습니다. 안녕하세요 이번 논문 리뷰를 맞게 된 통통한아이멤버입니다. 제가 이번에 리뷰할 논문은 "Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling"입니다. Mamba, State Space Model (SSM), with Sliding Window Attention (SWA)를 합친 SAMBA로 무한한 context 길이를 가지는 sequence를 modeling하는 것을 해결했습니다. 위의 이미지에서 볼 수 있듯이 최대 1M 토큰까지 예측 성능 향상, 64K 디코딩에서 최신 아키텍보다 빠른 디코딩 성능을 확인했습니다. 이후 어떠한 점이 해당 아키텍처가 성능과 속도를 모두 잡았는지 살펴보겠습니다. SSM의 약점을 보완한 하이브리드 접근법 Attention 기반 모델이 가진 장기 의존성 문제를 해결하기 위해 SSM을 이용한 새로운 모델이 제안되었고, 이는 서형 계산 복잡성과 더 긴 Sequence를 이해할 수 있게 되었습니다. 하지만 SSM 기반 모델들은 Markovian nature 때문에 memory recall에 문제가 있으며 retrieval-related tasks 굉장한 한계를 노출했습니다. 이를 해결하기 위해 어텐션 메커니즘과 혼합하는 다양한 방식이 탐구되었지만 선형 시간 복잡성 때문에 context extrapolation를 수행하지 못합니다. 해당 논문은 SSM과 어텐션 기반 모델의 강점을 조화시키면서 선형 시간 복잡성으로 무제한 context extrapolation을 달성하는 간단한 신경 아키텍처인 SAMBA를 소개합니다. 방법론 아키텍처 Mamba, Sliding Window Attention(SWA), 다층 퍼셉트론(MLP)으로 구성된 하이브리드 전략을 구성합니다. Mamba는 반복되는 시퀀스 구조를 포착하고, SWA는 메모리를 정밀하게 기억하며, MLP는 사실적 지식을 기억하는 역할을 합니다.
  • 통통한아이멤버
👍❤️
3
Made with Slashpage