생성형 AI, 특히 대규모 언어 모델(LLM)이 금융 산업을 변화시키고 있으며, 자동화 및 복잡한 금융 정보 이해를 돕고 있습니다. 특히 유망한 사용 사례는 투자 결정, 신용 위험 평가, 기업 합병 등을 위한 핵심인 기본적 분석 보고서의 자동 생성입니다. LLM은 단일 프롬프트에서 이러한 보고서를 생성하려 하지만, 부정확성의 위험이 큽니다. 본 논문에서는 재무제표 분석에 초점을 맞춘 견고한 벤치마크 데이터세트인 FinAR-Bench를 제안합니다. 이 과제를 핵심 정보 추출, 재무 지표 계산, 논리적 추론 적용의 세 가지 측정 가능한 단계로 나누어 평가의 정확성과 신뢰성을 높입니다. 이를 통해 LLM이 각 단계에서 얼마나 잘 수행하는지 객관적으로 평가할 수 있습니다.