Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks
Created by
Haebom
저자
Ruopei Sun, Jianfeng Cai, Jinhua Zhu, Kangwen Zhao, Dongyun Xue, Wengang Zhou, Li Li, Houqiang Li
개요
본 논문은 RLHF(Reinforcement Learning from Human Feedback)가 단일 명령어 작업에서는 효과적이지만, 복합적인 다중 명령어 작업에서는 충분한 준수 능력을 보이지 못하는 점을 지적합니다. 기존의 접근 방식은 인간의 어노테이션이나 대규모 언어 모델에 의존하여 비용이 많이 들거나 편향의 문제가 발생할 수 있습니다. 본 논문에서는 기존 RLHF의 한계를 극복하기 위해, 프롬프트 입력에 내재된 잠재적 신호와 표본 간 선호도 차이를 고려하지 않는 점을 문제점으로 제시합니다. 이를 해결하고자 다중 수준 인식 선호도 학습(MAPL) 프레임워크를 제안합니다. MAPL은 다양한 조건 하에서 선호도 관계를 갖는 프롬프트를 생성하여 표본 내 선호도 차이를 학습하고, 다중 명령어 선호도 쌍을 합성하여 표본 간 선호도 차이를 포착합니다. 이렇게 생성된 두 가지 데이터셋을 바탕으로 두 가지 정교한 훈련 목적 함수를 고안하고, 보상 모델링 및 직접 선호도 최적화 패러다임에 통합합니다. 여러 벤치마크를 통해 프레임워크의 효과를 실험적으로 검증합니다.