# OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

### 저자

Jian Hu, Xibin Wu, Wei Shen, Jason Klein Liu, Zilin Zhu, Weixun Wang, Songlin Jiang, Haoran Wang, Hao Chen, Bin Chen, Weikai Fang,  Xianyu, Yu Cao, Haotian Xu, Yiming Liu

### 개요

본 논문은 인간 피드백으로부터의 강화 학습(RLHF) 및 검증 가능한 보상을 사용한 강화 학습(RLVR)을 통해 미세 조정된 대규모 언어 모델(LLM)이 인간-AI 가치의 정렬을 크게 개선하고, 특히 추론 집약적인 긴 문맥 사고 연쇄(long-CoT) 작업에서 AI 기능의 상한선을 높인다는 점을 지적합니다.  그러나 기존 RLHF(또는 RLVR) 프레임워크는 추론 병목 현상과 복잡성 장벽과 같은 문제에 직면하여 접근성이 제한됩니다.  이러한 문제를 해결하기 위해, 연구자들은 Ray, vLLM, DeepSpeed 및 HuggingFace Transformers를 기반으로 구축된 사용자 친화적이고 확장 가능하며 학습이 용이한 오픈소스 RLHF 프레임워크인 OpenRLHF를 소개합니다. OpenRLHF는 단순화된 설계, 명확한 코드 구조 및 포괄적인 문서를 통해 연구자와 실무자의 진입 장벽을 낮추도록 설계되었습니다. 실험 결과, OpenRLHF는 최첨단 프레임워크에 비해 다양한 모델 크기에 걸쳐 1.22배에서 1.68배의 속도 향상을 달성하면서 구현에 필요한 코드 라인 수를 크게 줄였습니다. OpenRLHF는 [https://github.com/OpenRLHF/OpenRLHF](https://github.com/OpenRLHF/OpenRLHF) 에서 공개적으로 이용 가능하며, 이미 주요 기관에서 RLHF 연구 및 학습을 가속화하는 데 채택되었습니다.

[GitHub - OpenRLHF/OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework based on Ray (PPO & GRPO & REINFORCE++ & vLLM & Ray & Dynamic Sampling & Async Agentic RL)](https://github.com/OpenRLHF/OpenRLHF)

### 시사점, 한계점

- **시사점:**

    - RLHF/RLVR 기반 LLM의 효율적인 훈련을 위한 사용자 친화적이고 확장 가능한 오픈소스 프레임워크 제공.

    - 기존 프레임워크 대비 향상된 훈련 효율성(1.22x~1.68x 속도 향상) 및 코드 간소화를 통한 접근성 향상.

    - RLHF 연구 및 교육의 진입 장벽 감소 및 연구 가속화에 기여.

    - 주요 기관에서 이미 채택되어 실제 활용 가능성 입증.

- **한계점:**

    - OpenRLHF의 장기적인 유지보수 및 지속적인 개선에 대한 불확실성.

    - 다양한 하드웨어 환경 및 모델 아키텍처에 대한 호환성 및 최적화 수준에 대한 추가적인 검증 필요.

    - RLHF 자체의 근본적인 한계점(예: 인간 피드백의 편향성, 보상 함수 설계의 어려움)을 해결하지는 못함.

[PDF 보기](https://arxiv.org/pdf/2405.11143)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).