본 논문은 표 추론(Table Reasoning)에 초점을 맞춰, 대규모 언어 모델(LLM) 기반의 새로운 에이전트인 TableMind를 제시합니다. TableMind는 다단계 도구 호출을 자율적으로 수행하고, 안전한 샌드박스 환경에서 데이터 분석 코드를 작성 및 실행하여 정확한 수치적 추론을 가능하게 합니다. 또한, 계획 및 자기 반성과 같은 고차원 능력을 통해 전략을 적응적으로 조정합니다. 강력한 사전 훈련된 언어 모델을 기반으로, 고품질 추론 경로에 대한 지도 학습 미세 조정과 다목적 전략을 최적화하기 위한 강화 학습 미세 조정의 두 단계 미세 조정 패러다임을 채택했습니다. 특히, 저품질 경로보다 고품질 경로의 출력 확률이 낮을 때 업데이트 가중치를 높이는 Rank-Aware Policy Optimization (RAPO)을 제안하여 더 정확한 답변을 얻도록 모델을 유도합니다. 여러 주요 벤치마크에 대한 광범위한 실험 결과, TableMind는 경쟁 기준 모델보다 우수한 성능을 달성하여 추론 정확도와 계산 정밀도 모두에서 상당한 향상을 보였습니다.