Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Agent-UniRAG: A Trainable Open-Source LLM Agent Framework for Unified Retrieval-Augmented Generation Systems

Created by
  • Haebom

저자

Hoang Pham, Khac-Hoai Nam Bui

개요

본 논문은 최근 등장한 대규모 언어 모델(LLM) 에이전트 개념을 활용하여 통합된 검색 증강 생성(RAG) 시스템에 대한 새로운 접근 방식을 제시합니다. 특히, LLM을 기본 제어기로 활용하는 Agent LLM은 특히 복잡한 추론 질의응답 시스템(예: 다단계 질의)에서 RAG 작업의 해석성을 가능하게 하는 유망한 접근 방식으로 자리 잡았습니다. 그러나 이전 연구는 주로 단일 단계 또는 다단계 접근 방식을 별도로 사용하여 RAG 시스템을 해결하는 데 중점을 두었으며, 이는 실제 응용 프로그램에 대한 해당 접근 방식의 적용을 제한합니다. 본 연구에서는 RAG 시스템의 효과와 해석성을 향상시키는 통합된 검색 증강 LLM 시스템을 위한 훈련 가능한 에이전트 프레임워크인 Agent-UniRAG를 제안합니다. 주요 아이디어는 입력의 복잡성에 따라 단계별로 RAG 작업을 해결하기 위해 LLM 에이전트 프레임워크를 설계하여 단일 단계 및 다단계 질의를 동시에 엔드투엔드 방식으로 포함하는 것입니다. 또한, 제안된 에이전트 프레임워크를 소규모 오픈소스 LLM(예: Llama-3-8B)에 적용할 수 있도록 SynAgent-RAG라는 합성 데이터셋을 도입합니다. 결과는 다양한 RAG 벤치마크에서 클로즈드 소스 및 대규모 오픈소스 LLM과 비교할 만한 성능을 보여줍니다. 소스 코드와 데이터셋은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
LLM 에이전트를 활용하여 단일 및 다단계 질의를 통합적으로 처리하는 RAG 시스템을 제시.
Agent-UniRAG 프레임워크를 통해 RAG 시스템의 효율성과 해석성 향상.
소규모 오픈소스 LLM에도 적용 가능하도록 합성 데이터셋 SynAgent-RAG 제공.
다양한 RAG 벤치마크에서 우수한 성능 검증.
소스 코드와 데이터셋 공개를 통한 추가 연구 활성화.
한계점:
SynAgent-RAG 데이터셋의 일반화 성능에 대한 추가 검증 필요.
실제 복잡한 질의에 대한 Agent-UniRAG의 로버스트니스(robustness)에 대한 추가 연구 필요.
다른 유형의 LLM 에이전트와의 비교 분석 부족.
👍