본 논문은 코드 강화 학습에서 대규모 언어 모델(LLM)의 효과적인 훈련을 위해 정확한 피드백의 중요성을 강조하며, 고품질 테스트 케이스 생성의 어려움을 해결하기 위한 Klear-CodeTest 프레임워크를 제시합니다. Klear-CodeTest는 생성기-검증기(G-V) 프레임워크를 통해 정규 및 예외 케이스를 포함하는 포괄적인 테스트 케이스를 생성하고, 골드 솔루션과의 일관성 검증을 통해 정확성을 보장합니다. 또한, 안전하고 신뢰할 수 있는 코드 실행을 위한 다층 보안 샌드박스 시스템을 설계하였으며, 실험을 통해 생성된 데이터셋이 모델 성능 및 훈련 안정성 향상에 기여함을 보여줍니다. 소스 코드, 데이터셋, 샌드박스 시스템은 깃허브에서 공개됩니다.