본 논문은 소규모 언어 모델(SLM)의 창의적인 글쓰기 능력 향상을 위한 강화 학습 기반 접근법을 제시합니다. 70억 파라미터의 SLM을 사용하여 중국어 인사말 생성을 목표로, 인공지능 피드백 강화 학습(RLAIF) 프레임워크 내에서 두 가지 AI 기반 보상 전략을 연구합니다. 첫 번째 전략은 다중 에이전트 거절 샘플링 프레임워크를 통해 생성된 고품질 선호도 데이터로 훈련된 RM을 사용하고, 두 번째 전략은 적대적 훈련과 반사 메커니즘을 통해 최적화된 원칙 기반 LLM-as-a-Judge를 활용합니다. 실험 결과, 두 접근법 모두 기준 모델보다 창의적인 출력을 크게 향상시키지만, 원칙 기반 LLM-as-a-Judge가 더 우수한 생성 품질을 제공하며 훈련 효율성과 인간 주석 데이터 의존도 감소 측면에서도 장점을 보입니다. 자동 평가 방법은 인간 판단과 높은 일치율을 보입니다.