본 논문은 Text-to-SQL 작업에서 대규모 언어 모델(LLM)의 성능 향상을 위해 강화 학습(RL)을 활용하는 새로운 프레임워크인 MTIR-SQL을 제안한다. 기존 방법론의 정적 실행 피드백의 한계를 극복하기 위해, MTIR-SQL은 멀티턴 도구 호출과 동적 피드백을 통합하여 적응성과 견고성을 향상시키는 실행 인식 멀티턴 추론 패러다임을 도입한다. GRPO 알고리즘을 확장하여 복잡한 멀티턴 상호작용 시나리오를 처리하며, 훈련 안정성을 위해 궤적 필터링 메커니즘을 추가하고 KL 손실 제약을 제거한다. 4B 파라미터를 가진 MTIR-SQL은 BIRD Dev에서 64.4% 정확도, SPIDER Dev에서 84.6% 실행 정확도를 달성하여 기존 방법론을 능가하는 성능을 보였다.