Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution

Created by
  • Haebom

저자

Jiahui Li, Lin Li, Tai-wei Chang, Kun Kuang, Long Chen, Jun Zhou, Cheng Yang

개요

본 논문은 인간 피드백으로부터의 강화 학습(RLHF)을 사용하여 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 방법을 제안합니다. 기존의 RLHF는 전체 출력 시퀀스에 단일한 보상을 부여하는 방식으로, 개별 토큰의 기여도를 고려하지 못하는 한계가 있습니다. 이를 해결하기 위해, 본 논문에서는 기존 보상 모델을 활용하여 각 토큰에 대한 보상을 재분배하는 새로운 방법인 RED(Reward Redistribution)를 제시합니다. RED는 기존 보상 모델을 수정하거나 추가적인 학습 단계 없이도 토큰 단위의 세분화된 보상을 제공하여 LLM의 성능을 향상시킵니다. 다양한 데이터셋과 작업에 대한 실험 결과는 RED의 우수성을 보여줍니다.

시사점, 한계점

시사점:
기존 RLHF의 한계점인 단일 보상 방식을 개선하여 LLM의 성능 향상을 도모합니다.
토큰 단위의 세분화된 보상을 통해 LLM의 언어적 뉘앙스 이해도를 높입니다.
기존 보상 모델을 수정하지 않고도 효과적인 성능 향상을 달성하며, 계산 비용을 최소화합니다.
다양한 데이터셋과 작업에서 우수한 성능을 입증합니다.
한계점:
제시된 RED 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
특정 유형의 보상 모델에만 적용 가능할 수 있습니다.
토큰 레벨의 보상 분배 방식의 최적화에 대한 추가적인 연구가 필요할 수 있습니다.
👍