Sign In

Adaptive Segment-level Reward: Bridging the Gap Between Action and Reward Space in Alignment

Created by
  • Haebom
Category
Empty

저자

Yanshi Li, Shaopan Xiong, Gengru Chen, Xiaoyang Li, Yijia Luo, Xingyuan Bu, Yingshui Tan, Wenbo Su, Bo Zheng

개요

본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 강화 학습(RL)을 사용하는 기존 방법의 한계를 지적하고, 이를 개선하기 위한 새로운 방법인 "적응적 구간별 보상(Adaptive Segment-wise Reward)" 방법을 제안합니다. 기존의 단계별 또는 토큰별 방법은 각각 구두점에 의존하거나 중요하지 않은 토큰에 과도하게 집중하여 효율성이 떨어지는 문제점을 가지고 있습니다. 본 논문에서 제안하는 방법은 구두점 대신 의미론적 의미를 사용하여 구간을 동적으로 나누어 보상을 할당함으로써, 보다 정확한 신호를 제공하고 크레딧 할당 문제를 해결합니다. 실험 결과, 제안된 방법은 다양한 훈련 방법에 통합될 수 있으며, 적대적 예시에 대한 성공률을 10% 향상시키고, MMLU, GSM8K, HumanEval 등 평가 벤치마크에서 1.3%의 성능 향상을 달성했습니다.

시사점, 한계점

시사점:
의미론적 의미를 기반으로 구간을 나누는 적응적 구간별 보상 방법이 LLM의 인간 선호도 정렬 성능을 향상시킬 수 있음을 보여줍니다.
다양한 강화 학습 기반 LLM 훈련 방법에 적용 가능한 일반적인 방법론을 제시합니다.
적대적 예시에 대한 강건성을 향상시키고, 기존 벤치마크에서 성능 향상을 달성했습니다.
한계점:
제안된 방법의 의미론적 구간 분할 방식에 대한 구체적인 알고리즘 및 세부 사항이 논문에서 충분히 설명되지 않았을 수 있습니다.
다양한 LLM과 훈련 데이터셋에 대한 일반화 성능이 추가적인 실험을 통해 검증되어야 합니다.
의미론적 구간 분할의 계산 비용 및 효율성에 대한 분석이 부족할 수 있습니다.
👍