본 논문은 대규모 언어 모델(LLM)의 중국어 맞춤법 검사(CSC) 성능 향상을 위한 새로운 강화 학습 프레임워크인 CEC-Zero를 제안한다. 기존 BERT 기반 모델보다 높은 정확도와 견고성을 보이는 LLM이지만, 신뢰성과 일반화 능력에 대한 문제점을 해결하기 위해 외부 감독 없이 LLM이 스스로 오류 전략을 학습하는 자기 수정 방식을 제시한다. 강화 학습을 LLM의 생성 능력과 통합하여 어노테이션 데이터나 보조 모델에 대한 의존성을 제거하고, 실험 결과 산업 수준의 정확도와 우수한 도메인 간 일반화 능력을 달성함을 보여준다. 이는 실제 중국어 텍스트 수정 시나리오에서 LLM 배포를 용이하게 하고 자기 개선 언어 모델에 대한 새로운 패러다임을 제시한다.