# Auto-ARGUE: LLM-Based Report Generation Evaluation

### 저자

William Walden, Marc Mason, Orion Weller, Laura Dietz, John Conroy, Neil Molino, Hannah Recknor, Bryan Li, Gabrielle Kaili-May Liu, Yu Hou, Dawn Lawrie, James Mayfield, Eugene Yang

### 💡 개요

본 논문은 검색 증강 생성(RAG) 시스템의 주요 활용 사례인 인용 기반 보고서 생성 평가를 위한 LLM 기반 도구인 Auto-ARGUE를 소개합니다. TREC 2024 NeuCLIR 및 RAG 트랙의 파일럿 과제에 대한 분석 결과, Auto-ARGUE는 인간의 평가와 높은 시스템 수준의 상관관계를 보였습니다. 또한, 평가 결과 시각화 및 세밀한 분석을 위한 웹 앱 ARGUE-Viz도 함께 공개합니다.

### 🔑 시사점 및 한계

- RAG 기반 보고서 생성 시스템의 자동화된 평가를 위한 새로운 도구(Auto-ARGUE) 제시

- TREC 2024 데이터셋을 통한 Auto-ARGUE의 유효성 및 인간 평가와의 상관관계 입증

- 평가 결과 분석을 위한 시각화 도구(ARGUE-Viz) 제공으로 접근성 향상

- 향후 추가적인 데이터셋 및 다양한 보고서 생성 시나리오에서의 평가 및 개선 필요

[PDF 보기](https://arxiv.org/pdf/2509.26184)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).