본 논문은 기존 기계 번역(MT)을 위한 대규모 언어 모델(LLM)들이 사람이 주석을 단 참조 데이터나 훈련된 보상 모델(RM)과 같은 외부 감독 신호에 크게 의존하는 문제점을 해결하기 위해, 참조가 필요 없고 완전히 온라인이며 자체 판단 보상에만 의존하는 단순 자기 보상 강화 학습(SSR) 프레임워크를 제안한다. Qwen-2.5-7B 백본을 사용하여 13,000개의 일어 단어 예시로 SSR을 사용하여 훈련한 모델인 SSR-Zero-7B는 기존의 MT 특화 LLM(TowerInstruct-13B, GemmaX-28-9B) 및 Qwen2.5-32B-Instruct와 같은 더 큰 일반 LLM을 WMT23, WMT24, Flores200 벤치마크의 영어 ↔ 중국어 번역 작업에서 능가한다. COMET의 외부 감독을 추가한 강화된 모델인 SSR-X-Zero-7B는 영어 ↔ 중국어 번역에서 최첨단 성능을 달성하여 72B 매개변수 미만의 모든 기존 오픈소스 모델을 능가하고 GPT-4o 및 Gemini 1.5 Pro와 같은 독점 모델도 능가한다. 분석 결과, MT에서 자기 보상 메커니즘이 외부 LLM-as-a-judge 방식보다 효과적이며, 훈련된 RM과 결합하면 상호 보완적인 이점이 있음을 강조한다. 본 논문은 자기 개선 RL 방법의 잠재력에 대한 귀중한 통찰력을 제공하며 코드, 데이터 및 모델을 공개적으로 공개했다.