CogniSQL-R1-Zero는 실행 정확성과 형식 태그 준수를 기반으로 한 경량 보상 신호를 사용하여 정확한 SQL을 생성하는 강화 학습(RL) 프레임워크 및 모델입니다. 중간 감독, 하이브리드 파이프라인 및 복잡한 보상 조정을 피함으로써 안정적인 학습과 최종 목표(실행 가능한 프로그램 생성)와의 강력한 정렬을 장려합니다. 7B 백본으로 훈련되었음에도 불구하고, Text2SQL 벤치마크인 BIRD 벤치마크에서 SFT CodeS-7B, DeepSeek-Coder 236B, Mistral 123B를 포함한 이전의 감독 및 지시어 튜닝 기준 모델을 능가하는 최첨단 실행 정확도를 달성합니다. 4개의 NVIDIA A100 GPU(각각 40GB VRAM)에서만 훈련되었다는 점을 고려할 때 RL 기반 접근 방식의 확장성과 효율성을 강조합니다. 또한 효율적이고 해석 가능한 Text-to-SQL 모델링에 대한 추가 연구를 지원하기 위해 두 개의 큐레이션된 데이터 세트((i) 다양한 컨텍스트 길이를 가진 5,024개의 추론 추적 모음, (ii) 6개의 의미적으로 다양한 추론 경로로 주석이 달린 36,356개의 약하게 감독된 쿼리의 양성 샘플링 코퍼스)를 공개합니다.