Sign In

MTIR-SQL: Multi-turn Tool-Integrated Reasoning Reinforcement Learning for Text-to-SQL

Created by
  • Haebom
Category
Empty

저자

Zekun Xu, Siyu Xia, Chuhuai Yue, Jiajun Chai, Mingxue Tian, Xiaohan Wang, Wei Lin, Haoxuan Li, Guojun Yin

개요

본 논문은 Text-to-SQL 작업에서 대규모 언어 모델(LLM)의 성능 향상을 위해 강화 학습(RL)을 활용하는 새로운 프레임워크인 MTIR-SQL을 제안한다. 기존 방법론의 정적 실행 피드백의 한계를 극복하기 위해, MTIR-SQL은 멀티턴 도구 호출과 동적 피드백을 통합하여 적응성과 견고성을 향상시키는 실행 인식 멀티턴 추론 패러다임을 도입한다. GRPO 알고리즘을 확장하여 복잡한 멀티턴 상호작용 시나리오를 처리하며, 훈련 안정성을 위해 궤적 필터링 메커니즘을 추가하고 KL 손실 제약을 제거한다. 4B 파라미터를 가진 MTIR-SQL은 BIRD Dev에서 64.4% 정확도, SPIDER Dev에서 84.6% 실행 정확도를 달성하여 기존 방법론을 능가하는 성능을 보였다.

시사점, 한계점

시사점:
멀티턴 도구 통합 및 동적 피드백을 통한 Text-to-SQL 성능 향상 가능성 제시
실행 인식 멀티턴 추론 패러다임 도입을 통해 문맥에 맞는 쿼리 생성 및 점진적 개선 가능
GRPO 알고리즘의 확장 및 훈련 안정성 개선을 위한 기법 제시
기존 방법론 대비 우수한 성능 입증
한계점:
논문에서 구체적인 한계점에 대한 언급 없음 (추후 연구 필요)
👍