본 논문은 대규모 언어 모델(LLM)이 수학 문제 해결 과정에서 논리적 추론 및 계산 오류를 범할 수 있다는 점을 지적하며, LLM이 생성한 솔루션의 정확성을 공식적으로 검증하는 프레임워크인 MATH-VF를 제안합니다. MATH-VF는 자연어 솔루션을 공식적 맥락으로 변환하는 Formalizer와 컴퓨터 대수 시스템 및 SMT 솔버와 같은 외부 도구를 통합하여 각 명제의 정확성을 평가하고 오류 발생 시 수정 피드백을 제공하는 Critic으로 구성됩니다. MATH-VF의 효과를 검증 및 수정 두 가지 시나리오에서 실험적으로 연구하며, MATH500 및 ProcessBench와 같은 널리 사용되는 수학 벤치마크를 통해 기존 방식보다 우수함을 입증합니다.