대규모 언어 모델(LLM)은 자연어 생성 및 추론에서 뛰어난 능력을 보이지만, 토큰 생성의 확률적 특성과 구조적 데이터 형식(JSON, XML 등)의 결정적 요구 사항 사이의 "구조 격차"로 인해 자동화된 소프트웨어 생태계 통합에 어려움을 겪습니다. 본 논문에서는 이 격차를 해소하기 위해 경량화되고 효율적인 강화 학습(RL) 프레임워크를 제안합니다. 구조적 무결성, 형식 정확성, 내용 정확성 및 유효성을 포함하는 다차원 보상 함수를 도입하고, Gradient Regularized Policy Optimization (GRPO)를 활용하여 별도의 비평가 네트워크 없이 모델이 이러한 제약을 내재화하도록 합니다. 실험 결과는 구조적 정확도 89.7%, JSON 유효성 92.1%를 달성하여 제로샷 baseline 및 LLaMA-3-8B와 같은 대형 모델의 SFT를 능가하며, 모델은 레시피 생성 및 구조화된 수학적 추론(GSM8K-JSON)과 같은 다양한 task에서 검증되었습니다. 또한, 모델이 의미 정확도보다 구문 숙련도를 먼저 습득하는 자체 속도 커리큘럼을 밝히는 교육 역학에 대한 자세한 분석을 제공합니다.