FinSage: A Multi-aspect RAG System for Financial Filings Question Answering
Created by
Haebom
저자
Xinyu Wang, Jijun Chi, Zhenghan Tai, Tung Sum Thomas Kwok, Muzhi Li, Zhuhong Li, Hailin He, Yuchen Hua, Peng Lu, Suyuchen Wang, Yihong Wu, Jerry Huang, Jingrui Tian, Fengran Mo, Yufei Cui, Ling Zhou
개요
본 논문은 금융 문서 워크플로우에서 복잡한 규정 준수 요구 사항을 해결하기 위해 RAG(Retrieval-Augmented Generation) 시스템을 활용하는 금융 부문의 현황을 제시합니다. 기존 솔루션은 데이터의 이질성(텍스트, 표, 다이어그램 등)과 규제 표준의 변화하는 특성을 고려하는 데 어려움을 겪어 중요 정보 추출의 정확성이 저하되는 문제점을 가지고 있습니다. 이에 본 논문에서는 다양한 형태의 금융 문서에서 규정 준수 분석을 위한 다중 양상 RAG 프레임워크인 FinSage를 제안합니다. FinSage는 다양한 데이터 형식을 통합하고 청크 수준의 메타데이터 요약을 생성하는 다중 모드 전처리 파이프라인, 쿼리 확장(HyDE)과 메타데이터 인식 의미 검색으로 증강된 다중 경로 스파스-밀집 검색 시스템, 그리고 DPO(Direct Preference Optimization)를 통해 미세 조정된 도메인 특화 재순위 지정 모듈의 세 가지 혁신적인 구성 요소를 포함합니다. 실험 결과, FinSage는 전문가가 엄선한 75개의 질문에 대해 92.51%의 인상적인 재현율을 달성했으며, FinanceBench 질의응답 데이터 세트에서 기존 최고 성능 방법보다 정확도가 24.06% 향상되었습니다. 또한, FinSage는 온라인 회의에서 금융 질의응답 에이전트로 성공적으로 배포되어 1,200명 이상에게 서비스를 제공했습니다.
시사점, 한계점
•
시사점:
◦
다양한 형태의 금융 데이터를 효과적으로 처리하고 규정 준수 분석의 정확도를 높이는 FinSage 프레임워크 제시.
◦
쿼리 확장과 메타데이터 인식 의미 검색을 활용한 효율적인 정보 검색 및 재현율 향상.
◦
실제 금융 환경에서의 성공적인 배포 및 실질적인 효용성 검증.
◦
DPO를 활용한 도메인 특화 재순위 지정 모듈을 통해 규정 준수에 중요한 정보 우선 제공.
•
한계점:
◦
FinanceBench 데이터셋에 대한 성능 평가가 주를 이루어 다른 금융 데이터셋으로의 일반화 가능성에 대한 추가 연구 필요.