본 논문은 금융 분야에서 실시간 데이터 처리 및 전문적인 정확성이 요구되는 Retrieval-Augmented Generation (RAG) 시스템 평가를 위한 새로운 벤치마크인 FinS-Pilot을 제안합니다. FinS-Pilot은 실제 금융 어시스턴트 상호작용 데이터를 기반으로 구축되었으며, 실시간 API 데이터와 텍스트 데이터를 통합하여 중요 금융 영역을 다루는 의도 분류 프레임워크를 통해 구성됩니다. 중국어 주요 LLMs를 이용한 실험을 통해 FinS-Pilot이 금융 애플리케이션에 적합한 모델을 식별하는 데 효과적임을 보여주며, 금융 분야 NLP 시스템 연구 발전에 기여하는 실용적인 평가 프레임워크 및 정제된 데이터셋을 제공합니다. 코드와 데이터셋은 GitHub에서 이용 가능합니다.