Paper Review

논문에 대한 리뷰를 하는 페이지입니다.
[논문 리뷰] From Local to Global: A Graph RAG Approach to Query-Focused Summarization
안녕하세요! 오늘은 2024년 4월에 공개된 RAG 및 요약 관련 논문을 소개드리고자 합니다! 소개드리는 논문은 기존의 텍스트 요약 모델과 차별화된 접근 방식을 통해 대규모 데이터셋에서도 효율적이고 포괄적인 질의 중심 요약을 가능하게 하는 Graph RAG 입니다. 이 연구는 대규모 데이터셋 전반의 주제나 관계를 요약하는 데 강점을 보입니다. 특히, Retrieval-Augmented Generation(RAG)과 그래프 이론의 결합을 통해 텍스트 데이터를 커뮤니티 단위로 요약하고, 이를 바탕으로 심층적이고 다각적인 응답을 제공할 수 있다는 점에서 학술 및 비즈니스 인텔리전스 분야의 데이터 분석에 혁신적인 영향을 미칠 것으로 기대됩니다. Microsoft에서 작성하여 대규모 데이터 분석의 효율성과 인터랙티브한 인사이트 제공 측면에서 향후 더 큰 영향력을 발휘할 것으로 예상됩니다. Abstract 논문은 기존 RAG(Retrieval-Augmented Generation) 방식이 대규모 텍스트 코퍼스 전체에 대한 글로벌 질문을 해결하는 데 한계를 보인다고 지적합니다. 예를 들어, "데이터셋의 주요 주제는 무엇인가?"와 같은 질문은 개별적인 정보 검색이 아니라 질문에 맞춰 요약을 수행하는 작업(QFS, Query-Focused Summarization)을 요구하기 때문에, 기존 RAG의 접근 방식으로는 이러한 질문에 적합한 답변을 제공하기 어렵습니다. 기존의 QFS 접근 방식도 대규모 텍스트를 다루기에는 한계가 있었기 때문에, 이 논문에서는 이러한 문제를 해결할 수 있는 Graph RAG 방식을 제안합니다. Graph RAG는 엔티티 지식 그래프(Entity Knowledge Graph)를 기반으로, 데이터셋 내의 밀접하게 관련된 엔티티들을 커뮤니티로 그룹화하고, 각 커뮤니티에 대해 Community Summary를 사전 생성합니다. 사용자가 질문을 하면, 각 커뮤니티의 요약을 활용해 부분적인 응답을 생성한 뒤, 이를 최종적으로 통합하여 포괄적이고 일관된 답변을 제공합니다. 이 접근 방식은 기존 QFS와 달리 대규모 텍스트를 효과적으로 다룰 수 있다는 점에서 차별화됩니다. 특히, 대규모 데이터셋에서도 효율적인 글로벌 질문 처리가 가능하도록 설계되어, 전체 텍스트 코퍼스에서 중요한 주제나 패턴을 도출하는 데 유리합니다. Introduction 인간이 도메인 지식을 바탕으로 복잡한 의미를 이해하는 방식처럼, RAG(Retrieval-Augmented Generation)도 이러한 인간의 사고 과정을 적용하여 텍스트에서 정보를 추출하고자 합니다. 현재 LLM(Large Language Models)을 사용한 문서의 국소적 요약(Local summarization)은 비교적 간단해졌지만, 특정 질문에 맞춘 요약(Query-Focused Abstractive Summarization, QFS)에 대한 연구는 여전히 부족한 상황입니다. LLM은 긴 컨텍스트를 효과적으로 처리하는 데에 한계가 있습니다. 이 문제를 해결하기 위해, 본 연구에서는 사전 인덱싱을 통한 QFS 방식을 제안합니다. 이를 위해 LLM을 활용해 지식 그래프(Knowledge Graph)를 자동으로 구축하고, 그 그래프를 통해 전체 데이터셋을 요약하는 Graph RAG 접근 방식을 제시합니다. 이 과정에서 그래프 인덱스를 단순히 구조화하고, 검색하며, 노드 간의 연결을 탐색하는 것에 집중하지 않고, 대신 노드와 연관된 모듈화된 그룹을 탐지하고 분석하는 것에 중점을 둡니다. 이렇게 탐지된 그룹은 병렬로 요약이 수행되며, 각 부분적인 요약 결과를 다시 종합하여 최종적인 글로벌 요약을 제공합니다. 본 연구에서는 팟캐스트 전사본과 뉴스 기사 데이터를 활용하여, Graph RAG 접근 방식과 기존 방법들을 평가하였습니다. 그 결과, 제안된 방법이 더 포괄적이고 다양한 답변을 제공하며, 전체 데이터셋에 대한 질문에 더 효과적으로 답변할 수 있음을 보여줍니다. Graph RAG Approach & Pipeline 사전 용어 정리 Node: Entity와 동일하며 사람, 지명, 장소 등을 의미합니다.
  • 레오
1
👍❤️
7
[논문 리뷰] NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
본 글은 롯데 아이멤버[언어>업무도우미>텍스트 요약, 번역, 교정]를 활용하여 작성했습니다. 안녕하세요 통통한 아이멤버입니다! 요즘 인공지능을 사용하면서 대용량 텍스트를 입력으로 사용하는 경우가 많아지고 있습니다! 예를 들어, 책 한 권 분량의 내용, 법률 관련 문서, 대용량 데이터베이스 등의 정보를 입력하여 필요한 내용을 찾는 경우가 늘어나고 있습니다. 이러한 요구에 맞춰 많은 기업들이 긴 컨텍스트(long context)를 처리할 수 있는 모델을 출시하고 있습니다. 예를 들어, GPT-4는 128k, Claude-3는 200k, Llama 3.1는 128k를 지원하여 책 한 권 분량의 입력을 처리할 수 있습니다.📕 하지만 이렇게 긴 문장을 처리할 수 있어도, 원하는 내용을 정확히 찾지 못한다면 효율성이 크게 떨어지게 됩니다. 😅 긴 문장에서 필요한 정보를 찾는 능력을 평가하기 위해, 모래사장에서 바늘을 찾는 것에 비유한 NeedleBench 논문이 발표되었습니다. 🏖️🪡 해당 벤치마크 관련 논문이 어떤 내용을 담고 있는지 확인해 보겠습니다! Abstract 대형 언어 모델(LLM)의 능력을 평가할 때, 원본의 긴 문서에서 사용자의 질의와 관련된 내용을 긴 텍스트 기반의 질문에서 찾아 대답할 수 있는 것은 중요한 평가 요소입니다. NeedleBench는 긴 문서에서 사용자 질의를 정확하게 체크할 수 있는지를 확인할 수 벤치마크를 소개합니다. 다양한 길이(4k, 8k, 32k, 128k, 200k, 1000k 이상)의 문장과 긴 문맥 능력을 평가하는 일련의 과제를 포함하는 테스트입니다. NeedleBench 프레임워크를 사용하여 주요 오픈 소스 모델이 질문과 관련된 주요 정보를 얼마나 잘 식별하고, 긴 텍스트 추론에 적용하는지를 평가합니다. 긴 글 작업에서 발생할 가능성이 있는 논리적 추론 과제를 평가할 수 있는 Ancestral Trace Challenge (ATC)도 제안합니다. 복잡한 긴 문맥 상황을 처리하는 LLM을 평가하는 간단한 방법을 제공합니다. 소개한 벤치마크를 통해 LLM이 실용적인 긴 문맥을 이용한 작업에 상당한 개선의 여지가 있음을 알 수 있으며, 긴 문맥 작업에서 발생할 가능성이 높은 논리적 추론 과제의 복잡성에 어려움을 겪고 있음을 확인할 수 있습니다.
  • 통통한아이멤버
❤️👍
2
[논문 리뷰] QWEN2 TECHNICAL REPORT
안녕하세요! 통통한아이멤버입니다! 요즘 오픈소스 LLM은 춘추전국 시대를 겪고 있는데요 (Llama, Qwen, Mixtral...) 시중에 사용할 수 있는 대부분의 모델은 한국어 성능이 부족한 이슈가 존재합니다. 이런 한국어 오픈소스 LLM 갈증을 해결해 줄 수도 있는 한국어 성능이 좋은 LLM인 Qwen2가 2024년 06월 06일에 발표되었습니다. 위의 이미지에서 확인할 수 있듯이 라마3 70B의 성능을 뛰어넘는 성능을 보여주고 있고, Qwen/Qwen2-72B-Instruct, Qwen/Qwen2-7B, Qwen/Qwen2-7B-Instruct-GPTQ-Int8 등등 다양한 형태의 모델을 제공하고 있습니다. 해당 모델에 대한 TECHNICAL REPORT가 24년 7월 15일에 발표되어 한 번 살펴보겠습니다. Abstract 알리바바는 대형 언어 모델(LLM)인 Qwen2 시리즈를 소개합니다. 해당 모델은 0.5B~72B의 다양한 매개변수를 가지는 모델를 공개합니다. Qwen2는 다양한 오픈소스 LLM을 성능을 능가하며 선행 모델인 Qwen1.5보다 뛰어난 성능을 보이고 잇습니다. 주요 모델인 Qwen2-72B는 MLU에서 84.2점, GPQA에서 37.9점, HumanEval에서 64.6점, GSM8K에서 89.5점, BBH에서 82.4점을 기록했습니다. 30개 언어에 능숙한 다국어 능력을 보여주며, 영어, 중국어, 스페인어, 프랑스어, 독일어, 아랍어, 러시아어, 한국어, 일본어, 태국어, 베트남어 등 다양한 언어를 지원합니다. 혁신적인 모델 발전을 위해 모델 가중치를 공개하여 다양한 연구 작업을 촉진합니다. Introduction LLM 등장 이후 LLM은 엄청난 관심을 받게 됩니다. 점점 더 많은 경쟁력 있는 LLM이 OPENAI의 GPT 시리즈와 유사한 발전을 추구하고 있습니다. Qwen, Mistral, Gemma등과 같이 오픈 가중치 방식으로 출시되었습니다. Qwen은 언어, 비전, 오디오 모델과 같이 다양한 모델을 출시하였고 이번에 최신 Qwen2를 소개합니다. Qwen2는 Transformer 아키텍처에 기반을 두고 다음 토큰을 예측하는 LLM 시리즈 중 하나입니다. 해당 모델 시리즈는 기본 언어 모델(사람의 선호도에 맞춰지지 않은 사전 학습 모델), instruction-tuned 모델을 출시합니다. 0.5억, 1.5억, 7억, 72억 매개변수를 가진 모델 4가지를 출시하였습니다. 이 중 0.5억, 1.5억 모델은 휴대용 장치에 쉽게 배포할 수 있게 설게되었습니다. 모든 모델은 다양한 도메인과 언어를 포함하는 7조 개 이상의 토큰으로 구성된 고품질 데이터셋에서 사전 학습되었습니다. 이후 훈련에 대해서는 모든 모델은 supervised된 fine-tuning과 DPO를 거쳐 학습함으로써 인간의 선호도에 맞춰져있습니다. 오픈, 독점 모델을 포함한 다양한 모델들과 비교분석을 수행하였습니다. 다양한 벤치마크에서 Qwen2는 경쟁 모델을 능가하는 것을 확인했습니다. TOKENIZER & MODEL Qwen2의 토크나이저와 모델 설계를 소개합니다. TOKENIZER
  • 통통한아이멤버
👍❤️
2
[논문 리뷰] Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling
**해석과 맞춤법은 아이멤버 업무도우미를 이용하였습니다. 안녕하세요 이번 논문 리뷰를 맞게 된 통통한아이멤버입니다. 제가 이번에 리뷰할 논문은 "Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling"입니다. Mamba, State Space Model (SSM), with Sliding Window Attention (SWA)를 합친 SAMBA로 무한한 context 길이를 가지는 sequence를 modeling하는 것을 해결했습니다. 위의 이미지에서 볼 수 있듯이 최대 1M 토큰까지 예측 성능 향상, 64K 디코딩에서 최신 아키텍보다 빠른 디코딩 성능을 확인했습니다. 이후 어떠한 점이 해당 아키텍처가 성능과 속도를 모두 잡았는지 살펴보겠습니다. SSM의 약점을 보완한 하이브리드 접근법 Attention 기반 모델이 가진 장기 의존성 문제를 해결하기 위해 SSM을 이용한 새로운 모델이 제안되었고, 이는 서형 계산 복잡성과 더 긴 Sequence를 이해할 수 있게 되었습니다. 하지만 SSM 기반 모델들은 Markovian nature 때문에 memory recall에 문제가 있으며 retrieval-related tasks 굉장한 한계를 노출했습니다. 이를 해결하기 위해 어텐션 메커니즘과 혼합하는 다양한 방식이 탐구되었지만 선형 시간 복잡성 때문에 context extrapolation를 수행하지 못합니다. 해당 논문은 SSM과 어텐션 기반 모델의 강점을 조화시키면서 선형 시간 복잡성으로 무제한 context extrapolation을 달성하는 간단한 신경 아키텍처인 SAMBA를 소개합니다. 방법론 아키텍처 Mamba, Sliding Window Attention(SWA), 다층 퍼셉트론(MLP)으로 구성된 하이브리드 전략을 구성합니다. Mamba는 반복되는 시퀀스 구조를 포착하고, SWA는 메모리를 정밀하게 기억하며, MLP는 사실적 지식을 기억하는 역할을 합니다.
  • 통통한아이멤버
👍❤️
3