Critique-RL은 LLM의 복잡한 추론 작업 개선을 위해 강한 지도 없이 비판 언어 모델을 개발하는 온라인 강화 학습 접근 방식입니다. 액터가 응답을 생성하고 비평가가 피드백을 제공하며 액터가 그에 따라 응답을 개선하는 2자 플레이어 패러다임을 사용합니다. 비평가의 판별력과 유용성을 향상시키기 위해 2단계 최적화 전략을 활용합니다.
시사점, 한계점
•
강한 지도 없이 비판 언어 모델을 훈련하는 새로운 강화 학습 방법론 제안.
•
비평가의 판별력과 유용성을 모두 향상시키는 2단계 최적화 전략 제시.
•
다양한 작업 및 모델에서 상당한 성능 향상 입증 (예: Qwen2.5-7B에서 도메인 내 작업 9.02% 향상).
•
단, 간접 보상 신호에만 의존하는 경우 비평가의 판별력이 부족하다는 점을 지적하며, 판별력 향상을 위한 추가적인 방법론 필요.
•
(논문에서 명시적으로 언급되지 않음) 훈련 과정에서의 계산 비용 및 시간 소요가 있을 수 있음.