본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 강화 학습(RL)을 사용하는 기존 방법의 한계를 지적하고, 이를 개선하기 위한 새로운 방법인 "적응적 구간별 보상(Adaptive Segment-wise Reward)" 방법을 제안합니다. 기존의 단계별 또는 토큰별 방법은 각각 구두점에 의존하거나 중요하지 않은 토큰에 과도하게 집중하여 효율성이 떨어지는 문제점을 가지고 있습니다. 본 논문에서 제안하는 방법은 구두점 대신 의미론적 의미를 사용하여 구간을 동적으로 나누어 보상을 할당함으로써, 보다 정확한 신호를 제공하고 크레딧 할당 문제를 해결합니다. 실험 결과, 제안된 방법은 다양한 훈련 방법에 통합될 수 있으며, 적대적 예시에 대한 성공률을 10% 향상시키고, MMLU, GSM8K, HumanEval 등 평가 벤치마크에서 1.3%의 성능 향상을 달성했습니다.