# FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning

### 저자

Zhuohan Xie, Daniil Orel, Rushil Thareja, Dhruv Sahnan, Hachem Madmoun, Fan Zhang, Debopriyo Banerjee, Georgi Georgiev, Xueqing Peng, Lingfei Qian, Jimin Huang, Jinyan Su, Aaryamonvikram Singh, Rui Xing, Rania Elbadry, Chen Xu, Haonan Li, Fajri Koto, Ivan Koychev, Tanmoy Chakraborty, Yuxia Wang, Salem Lahlou, Veselin Stoyanov, Sophia Ananiadou, Preslav Nakov

### 💡 개요

본 연구는 금융 분석에 필수적인 다단계 기호 추론 능력을 평가할 기존 벤치마크의 한계를 지적하며, 이를 해결하기 위해 기계가 검증 가능한 연쇄적 사고(Chain-of-Thought) 추론을 위한 최초의 금융 벤치마크인 FinChain을 제안합니다. FinChain은 실행 가능한 Python 코드를 포함한 매개변수화된 기호 템플릿을 사용하여 12개 금융 도메인에 걸쳐 58개 주제를 포괄하며, 추론 과정의 정확성과 단계별 일관성을 동시에 평가하는 CHAINEVAL 지표를 도입했습니다. 26개 최첨단 LLM에 대한 평가 결과, 현재 LLM들이 기호 금융 추론에 명확한 한계를 보이지만, 도메인 특화 또는 수학 강화 파인튜닝 모델이 이러한 격차를 줄일 수 있음을 보여줍니다.

### 🔑 시사점 및 한계

- 금융 분야의 다단계 기호 추론 능력 평가를 위한 최초의 체계적인 벤치마크를 제시하여, 기존 벤치마크의 약점을 보완합니다.

- 실행 가능한 코드를 활용한 기계 검증 가능한 데이터 생성 방식을 통해 벤치마크의 신뢰성과 확장성을 높였습니다.

- 현재 LLM들은 복잡한 금융 추론에서 여전히 취약점을 보이며, 신뢰할 수 있고 해석 가능한 금융 AI 개발의 필요성을 강조합니다.

- 향후 연구는 LLM의 금융 분야 기호 추론 능력을 더욱 향상시키기 위한 새로운 모델 아키텍처 및 학습 방법론 개발에 집중해야 할 것입니다.

[PDF 보기](https://arxiv.org/pdf/2506.02515)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
