Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RAGalyst: Automated Human-Aligned Agentic Evaluation for Domain-Specific RAG

Created by
  • Haebom

저자

Joshua Gao, Quoc Huy Pham, Subin Varghese, Silwal Saurav, Vedhus Hoskere

개요

본 논문은 사실적 근거에 LLM을 기반으로 하는 Retrieval-Augmented Generation (RAG) 시스템의 엄격한 평가를 위한 자동화된, 인간-정렬 에이전트 프레임워크인 RAGalyst를 소개합니다. RAGalyst는 소스 문서에서 고품질의 합성 질의응답 (QA) 데이터 세트를 생성하는 에이전트 파이프라인을 특징으로 하며, 데이터 충실도를 보장하기 위해 에이전트 필터링 단계를 통합합니다. 또한, 인간 주석과의 강한 상관관계를 달성하기 위해 프롬프트 최적화를 사용하여 Answer Correctness 및 Answerability와 같은 LLM-as-a-Judge 지표를 개선합니다. 군사 작전, 사이버 보안, 교량 공학의 세 가지 도메인에서 다양한 RAG 구성 요소를 평가한 결과, 성능은 문맥에 따라 크게 달라지며, 단일 임베딩 모델, LLM 또는 하이퍼파라미터 구성이 보편적으로 최적이지 않음을 발견했습니다.

시사점, 한계점

시사점:
RAG 시스템 평가를 위한 자동화되고 인간과 일치하는 프레임워크인 RAGalyst를 개발했습니다.
도메인별 RAG 시스템 평가를 위한 구체적인 방법론을 제시했습니다.
다양한 RAG 구성 요소의 성능이 도메인에 따라 다름을 밝혀냈습니다.
RAG 시스템의 Answer Correctness 저하 원인 분석을 제공했습니다.
한계점:
연구 범위가 특정 도메인(군사 작전, 사이버 보안, 교량 공학)에 한정되었습니다.
LLM-as-a-Judge 지표가 인간 주석과의 높은 상관관계를 보이지만, 여전히 완벽하게 일치하지 않을 수 있습니다.
RAGalyst의 성능은 사용된 LLM 및 프롬프트의 품질에 따라 달라질 수 있습니다.
👍