# SSR-Zero: Simple Self-Rewarding Reinforcement Learning for Machine Translation

### 저자

Wenjie Yang, Mao Zheng, Mingyang Song, Zheng Li

### 개요

본 논문은 기존 기계 번역(MT)을 위한 대규모 언어 모델(LLM)들이 사람이 주석을 단 참조 데이터나 훈련된 보상 모델(RM)과 같은 외부 감독 신호에 크게 의존하는 문제점을 해결하기 위해, 참조가 필요 없고 완전히 온라인이며 자체 판단 보상에만 의존하는 단순 자기 보상 강화 학습(SSR) 프레임워크를 제안한다.  Qwen-2.5-7B 백본을 사용하여 13,000개의 일어 단어 예시로 SSR을 사용하여 훈련한 모델인 SSR-Zero-7B는 기존의 MT 특화 LLM(TowerInstruct-13B, GemmaX-28-9B) 및 Qwen2.5-32B-Instruct와 같은 더 큰 일반 LLM을 WMT23, WMT24, Flores200 벤치마크의 영어 ↔ 중국어 번역 작업에서 능가한다.  COMET의 외부 감독을 추가한 강화된 모델인 SSR-X-Zero-7B는 영어 ↔ 중국어 번역에서 최첨단 성능을 달성하여 72B 매개변수 미만의 모든 기존 오픈소스 모델을 능가하고 GPT-4o 및 Gemini 1.5 Pro와 같은 독점 모델도 능가한다.  분석 결과, MT에서 자기 보상 메커니즘이 외부 LLM-as-a-judge 방식보다 효과적이며, 훈련된 RM과 결합하면 상호 보완적인 이점이 있음을 강조한다.  본 논문은 자기 개선 RL 방법의 잠재력에 대한 귀중한 통찰력을 제공하며 코드, 데이터 및 모델을 공개적으로 공개했다.

### 시사점, 한계점

- **시사점:**

    - 참조 데이터나 훈련된 보상 모델에 대한 의존성을 줄이는 자기 보상 강화 학습 프레임워크(SSR)의 효과성을 입증.

    - 소규모 데이터셋(13,000개의 일어 단어 예시)으로 훈련된 7B 매개변수 모델이 기존의 대규모 모델들을 능가하는 성능을 달성.

    - 자기 보상 메커니즘과 외부 감독의 상호 보완적인 효과 확인.

    - 오픈소스로 코드, 데이터, 모델을 공개하여 연구의 재현성 및 확장성을 높임.

    - 자기 개선 RL 방법의 잠재력을 보여줌.

- **한계점:**

    - SSR 프레임워크의 일반화 성능에 대한 추가적인 연구 필요.  (다른 언어 쌍이나 작업에 대한 성능 평가)

    - 자기 보상 메커니즘의 내재적인 한계점 및 개선 방향에 대한 추가적인 분석 필요.

    - 13,000개의 일어 단어 예시라는 상대적으로 작은 데이터셋 사용이 성능 향상에 미치는 영향에 대한 추가 분석 필요.

    - 특정 언어 쌍(영어 ↔ 중국어)에 대한 집중적인 연구로 인해 다른 언어 쌍으로의 일반화 가능성에 대한 검증 필요.

[PDF 보기](https://arxiv.org/pdf/2505.16637)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).