본 논문은 대규모 언어 모델(LLM)이 표 형식 및 텍스트 데이터를 포함하는 금융 문서의 수치 질문 답변에 어려움을 겪는다는 문제점을 지적하며, 오라클 레이블이 없는 상황에서 기존의 비평가 에이전트의 성능 저하를 실험을 통해 확인한다. 이를 해결하기 위해 개선된 비평가 에이전트와 계산기 에이전트를 제시하며, 기존 최고 성능 모델(program-of-thought)보다 더 나은 성능과 안전성을 제공한다. 또한, 에이전트 간의 상호 작용과 그 영향에 대한 연구를 수행한다.