Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Agent-UniRAG: A Trainable Open-Source LLM Agent Framework for Unified Retrieval-Augmented Generation Systems

Created by
  • Haebom

저자

Hoang Pham, Thuy-Duong Nguyen, Khac-Hoai Nam Bui

개요

본 논문은 최근 등장한 대규모 언어 모델(LLM) 에이전트 개념을 활용하여 통합된 검색 증강 생성(RAG) 시스템에 대한 새로운 접근 방식을 제시합니다. 특히, LLM을 기본 제어기로 사용하는 Agent LLM은 특히 복잡한 추론 질의응답 시스템(예: 다단계 쿼리)의 경우 RAG 작업의 해석성을 가능하게 하는 유망한 접근 방식이 되었습니다. 그러나 이전 연구는 주로 단일 홉 또는 다단계 접근 방식을 별도로 사용하여 RAG 시스템을 해결하는 데 중점을 두었으며, 이는 해당 접근 방식의 실제 응용 프로그램에 대한 적용을 제한합니다. 본 연구에서는 통합된 검색 증강 LLM 시스템을 위한 학습 가능한 에이전트 프레임워크인 Agent-UniRAG를 제안하여 RAG 시스템의 효율성과 해석성을 향상시킵니다. 주요 아이디어는 입력의 복잡성에 따라 단계별로 RAG 작업을 해결하는 LLM 에이전트 프레임워크를 설계하여 단일 홉 및 다단계 쿼리를 동시에 종단 간 방식으로 포함하는 것입니다. 또한, 제안된 에이전트 프레임워크를 소규모 오픈소스 LLM(예: Llama-3-8B)에 적용할 수 있도록 합성 데이터 세트인 SynAgent-RAG를 도입합니다. 결과는 다양한 RAG 벤치마크에서 폐쇄형 소스 및 대규모 오픈소스 LLM과 비교할 만한 성능을 보여줍니다. 저희의 소스 코드와 데이터 세트는 추가 활용을 위해 공개적으로 제공됩니다.

시사점, 한계점

시사점:
LLM 에이전트를 활용한 통합 RAG 시스템 구축으로 단일 홉과 다단계 쿼리 모두 처리 가능
Agent-UniRAG 프레임워크를 통해 RAG 시스템의 효율성 및 해석성 향상
소규모 오픈소스 LLM에도 적용 가능한 SynAgent-RAG 데이터셋 제공
소스 코드와 데이터셋 공개를 통한 추가 연구 활성화
한계점:
SynAgent-RAG 데이터셋의 일반화 성능에 대한 추가 검증 필요
다양한 유형의 복잡한 쿼리에 대한 로버스트성 평가 필요
Agent-UniRAG의 계산 비용 및 확장성에 대한 추가 연구 필요
👍