MT-RewardTree: A Comprehensive Framework for Advancing LLM-Based Machine Translation via Reward Modeling
Created by
Haebom
Category
Empty
저자
Zhaopeng Feng, Jiahan Ren, Jiayuan Su, Jiamei Zheng, Zhihang Tang, Hongwei Wang, Zuozhu Liu
개요
본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 작업에서 성공적으로 활용된 프로세스 보상 모델(PRM)을 기계 번역(MT)에 적용하기 위한 포괄적인 프레임워크인 MT-RewardTree를 제안합니다. 기존의 선호도 쌍 구성 방식과 달리, 근사적 몬테카를로 트리 탐색(MCTS)을 이용하여 토큰 수준의 선호도 쌍을 자동으로 생성하는 새로운 방법을 제시하여 세분화된 단계에 대한 사람의 어노테이션 비용을 줄입니다. MT 특화 보상 모델 벤치마크를 구축하고 다양한 보상 모델 아키텍처를 체계적으로 비교하여 토큰 수준의 감독이 세분화된 선호도를 효과적으로 포착함을 보여줍니다. 실험 결과, 제안된 MT-PRM-Qwen-2.5-3B 모델이 동일한 입력 접두사를 주어졌을 때 토큰 수준 및 시퀀스 수준 평가 모두에서 최첨단 성능을 달성함을 보여줍니다. 추가적인 정렬 훈련 없이 LLM의 테스트 시간 정렬을 가능하게 하고 가설 앙상블의 성능을 크게 향상시키는 실용적인 응용 사례도 제시합니다. 본 연구는 MT 연구에서 보상 모델의 역할에 대한 귀중한 통찰력을 제공하며, 코드와 데이터는 공개됩니다.
시사점, 한계점
•
시사점:
◦
기계 번역에 프로세스 보상 모델(PRM)을 효과적으로 적용하기 위한 MT-RewardTree 프레임워크 제시.
◦
근사적 MCTS를 이용한 토큰 수준 선호도 쌍 자동 생성 방법 제안으로 인적 비용 절감.
◦
MT 특화 보상 모델 벤치마크 구축 및 다양한 아키텍처 비교 분석을 통한 토큰 수준 감독의 효과 입증.