본 논문은 대규모 추론 모델(LRM)을 이용한 기계 번역(MT)의 성능 향상을 다룬다. 기존 연구들이 주로 영어와 중국어 등 고자원 언어에 집중한 것과 달리, 본 연구는 새로운 보상 모델링 방법을 제시하여 저자원 언어를 포함한 다국어 기계 번역 성능 향상에 성공한다. 새로운 보상 모델링은 정책 MT 모델의 번역 결과를 강력한 LRM(DeepSeek-R1-671B)과 비교하여 정량화된 보상을 제공한다. Qwen2.5-7B-Instruct 기반 모델을 통해 문학 번역에서 최첨단 성능을 달성하며, OpenAI-o1 및 DeepSeeK-R1 등 강력한 LRM을 능가한다. 더 나아가, 11개 언어로 다국어 설정을 확장하여 경량화된 보상 모델링을 통해 단일 방향의 강력한 MT 능력을 여러 번역 방향(90개)으로 전이시켜 인상적인 다국어 MT 성능을 달성한다.