본 논문은 최첨단 대규모 언어 모델(LLM) 23개를 공인 재무 분석가(CFA) 3급 시험, 즉 고급 금융 추론의 금본위제 시험을 통해 종합적으로 평가한 연구 결과를 제시합니다. 다양한 프롬프팅 전략(Chain-of-Thought, Self-Discover 포함)을 사용하여 객관식 문제와 논술형 답변을 모두 평가하였습니다. 그 결과, 선두 모델들이 CFA 3급 시험에서 79.1%(o4-mini) 및 77.3%(Gemini 2.5 Flash) 와 같은 높은 점수를 기록하며, 고위험 금융 응용 분야에서 LLM의 능력이 크게 향상되었음을 보여줍니다. 개선된 엄격한 논술 채점 방법론 하에서 달성된 이러한 결과는 실무자들에게 모델 선택에 대한 중요한 지침을 제공하지만, 비용 효율적인 배포 및 전문적인 기준에 대한 성과의 미묘한 해석의 필요성과 같은 과제도 강조합니다.