본 논문은 기존 기계 번역(MT)을 위한 대규모 언어 모델(LLM)들이 고가의 외부 지도 신호(인간이 주석한 참조 데이터나 훈련된 보상 모델)에 크게 의존하는 문제를 해결하기 위해, 참조 없이 온라인으로 자기 평가 보상에만 의존하는 단순 자기 보상 강화 학습(SSR) 프레임워크를 제안합니다. Qwen-2.5-7B를 기반으로 13,000개의 일어 단어 예시를 사용하여 SSR로 훈련된 SSR-Zero-7B 모델은 기존의 MT 특화 LLM들(TowerInstruct-13B, GemmaX-28-9B)과 더 큰 일반 LLM(Qwen2.5-32B-Instruct)을 능가하는 영어↔중국어 번역 성능을 WMT23, WMT24, Flores200 벤치마크에서 보여줍니다. 더 나아가 COMET의 외부 지도를 추가한 SSR-X-Zero-7B 모델은 72B 매개변수 미만의 모든 기존 오픈소스 모델을 능가하고, GPT-4o, Gemini 1.5 Pro와 같은 폐쇄형 모델들과도 경쟁하는 최첨단 성능을 달성합니다. 본 논문은 자기 보상 메커니즘의 효과성과 훈련된 보상 모델과의 상호 보완적인 이점을 강조하며, 자기 개선 RL 방법의 잠재력에 대한 귀중한 통찰력을 제공합니다. 코드, 데이터 및 모델을 공개적으로 공개했습니다.