본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 과정에서 비용이 많이 드는 보상 모델 대신, 기존의 고품질 합성 명령어 따르기 데이터셋을 활용하여 간단한 참조 기반 지표를 보상 모델의 대안으로 제시합니다. BLEU와 같은 기본적인 문자열 일치 지표가 인간 선호도에 대한 합의 측면에서 강력한 보상 모델과 유사한 성능을 보임을 보여주고, 이를 바탕으로 BLEUBERI라는 새로운 방법론을 개발했습니다. BLEUBERI는 어려운 명령어를 먼저 식별하고, BLEU를 보상 함수로 직접 사용하는 Group Relative Policy Optimization (GRPO)을 적용합니다. 실험 결과, BLEUBERI로 훈련된 모델은 네 가지 어려운 명령어 따르기 벤치마크와 세 가지 다른 기본 언어 모델에서 보상 모델 기반 강화 학습으로 훈련된 모델과 경쟁력 있는 성능을 보였으며, 인간 평가에서도 품질이 동등한 것으로 나타났습니다. 더 나아가 BLEUBERI 모델은 경쟁 방법보다 사실에 기반한 출력을 생성하는 것으로 확인되었습니다. 결론적으로, 고품질 참조 출력(기존 명령어 따르기 데이터셋 또는 합성 데이터 생성을 통해 쉽게 얻을 수 있음)에 접근할 수 있다면, 문자열 일치 기반 지표는 보상 모델의 저렴하고 효과적인 대리 지표 역할을 할 수 있음을 보여줍니다. 코드와 데이터는 GitHub에서 공개됩니다.