Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Agent-UniRAG: A Trainable Open-Source LLM Agent Framework for Unified Retrieval-Augmented Generation Systems

Created by
  • Haebom

저자

Hoang Pham, Thuy-Duong Nguyen, Khac-Hoai Nam Bui

개요

본 논문은 최근 등장한 거대 언어 모델(LLM) 에이전트 개념을 활용하여 통합된 검색 증강 생성(RAG) 시스템에 대한 새로운 접근 방식을 제시합니다. 특히, LLM을 기본 제어기로 활용하는 Agent LLM은 특히 복잡한 추론 질의응답 시스템(예: 다단계 질의)에서 RAG 작업의 해석 가능성을 높이는 유망한 접근 방식으로 자리 잡았습니다. 그러나 이전 연구는 주로 단일 단계 또는 다단계 접근 방식을 별도로 사용하여 RAG 시스템을 해결하는 데 중점을 두었으며, 이는 해당 접근 방식의 실제 응용 프로그램에 대한 적용을 제한합니다. 본 연구에서는 RAG 시스템의 효율성과 해석 가능성을 향상시키는 통합된 검색 증강 LLM 시스템을 위한 학습 가능한 에이전트 프레임워크인 Agent-UniRAG를 제안합니다. 주요 아이디어는 입력의 복잡성에 따라 단계별로 RAG 작업을 해결하는 LLM 에이전트 프레임워크를 설계하여 단일 단계 및 다단계 질의를 동시에 엔드투엔드 방식으로 포함하는 것입니다. 또한, 제안된 에이전트 프레임워크를 소규모 오픈소스 LLM(예: Llama-3-8B)에 적용할 수 있도록 합성 데이터셋인 SynAgent-RAG를 도입합니다. 결과는 다양한 RAG 벤치마크에서 폐쇄형 소스 및 대규모 오픈소스 LLM과 비교할 만한 성능을 보여줍니다. 저희의 소스 코드와 데이터셋은 추가적인 활용을 위해 공개적으로 제공됩니다.

시사점, 한계점

시사점:
LLM 에이전트를 활용한 통합 RAG 시스템 구축을 위한 새로운 프레임워크(Agent-UniRAG) 제시
단일 및 다단계 질의를 동시에 처리하는 엔드투엔드 학습 가능한 시스템
소규모 오픈소스 LLM에서도 효과적인 성능을 보이는 합성 데이터셋(SynAgent-RAG) 제공
소스 코드 및 데이터셋 공개를 통한 추가 연구 및 활용 용이
한계점:
SynAgent-RAG 데이터셋의 일반화 성능에 대한 추가적인 검증 필요
다양한 종류의 RAG task에 대한 robustness 평가 부족
Agent-UniRAG의 계산 비용 및 효율성에 대한 자세한 분석 부족
👍