본 논문은 금융 분야에서 대규모 언어 모델(LLM)의 성능을 평가하기 위한 종합적인 벤치마크인 FinMaster를 제시합니다. FinMaster는 금융 시뮬레이터(FinSim), 다양한 금융 과제(FinSuite), 통합 평가 인터페이스(FinEval)의 세 가지 모듈로 구성됩니다. FinSim은 개인정보 보호를 준수하는 합성 금융 데이터를 생성하고, FinSuite는 금융 리터러시, 회계, 감사, 컨설팅 등 183개의 다양한 수준의 과제를 제공하며, FinEval은 통합된 평가 환경을 제공합니다. 최첨단 LLM을 대상으로 한 실험 결과, 기본적인 과제에서는 90% 이상의 정확도를 보였지만, 다단계 추론이 필요한 복잡한 시나리오에서는 정확도가 40%로 급감하는 등 금융 추론 능력의 중요한 한계가 드러났습니다. FinMaster는 전체 금융 업무 흐름을 포괄하는 최초의 벤치마크이며, 연구와 실제 금융 업무 간의 격차를 해소하고 LLM의 실제 금융 분야 적용을 촉진하는 데 기여할 것으로 기대됩니다.