Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration

Created by
  • Haebom
Category
Empty

저자

Viraj Mehta, Syrine Belakaria, Vikramjeet Das, Ojash Neopane, Yijia Dai, Ilija Bogunovic, Barbara Engelhardt, Stefano Ermon, Jeff Schneider, Willie Neiswanger

개요

본 논문은 보상 함수의 평가가 불가능한 머신러닝 분야에서 중요한 역할을 하는 선호도 기반 피드백을 다룹니다. 특히, 인간 피드백으로부터의 강화 학습(RLHF) 및 직접 선호도 최적화(DPO)를 포함한 대규모 언어 모델의 선호도 정렬에서 주목할 만한 최근 사례가 등장하고 있습니다. 많은 선호도 정렬 응용 프로그램에서 인간 피드백을 얻는 비용이 상당할 수 있다는 점을 고려하여, 본 논문은 효율적으로 좋은 정책을 식별하기 위해 인간 피드백을 얻을 맥락을 선택할 수 있다는 점을 이용하고, 이 설정을 능동적 상황적 듀얼링 밴딧 문제로 공식화합니다. 효율적으로 데이터를 선택하는 능동적 탐색 알고리즘을 제안하고, 다항식 최악의 경우 후회 경계를 갖는다는 이론적 증명을 제공합니다. 대규모 언어 모델의 선호도 정렬에 대한 실용적인 사용을 위해 설정과 방법론을 확장하고, 온라인 및 오프라인 접근 방식이라는 두 가지 확장을 제공합니다. 제안된 방법은 여러 언어 모델과 두 개의 새로운 데이터 세트를 포함한 네 개의 실제 데이터 세트에서 제한된 인간 선호도 샘플을 사용하여 기준선을 능가합니다.

시사점, 한계점

시사점:
능동적 학습을 통해 인간 피드백의 효율적인 수집 및 활용 방안 제시.
대규모 언어 모델의 선호도 정렬 문제에 대한 효과적인 알고리즘 및 이론적 분석 제공.
실제 데이터셋을 통해 제안된 방법의 우수성 검증.
온라인 및 오프라인 두 가지 접근 방식 제시.
새로운 데이터셋 공개를 통한 학계 기여.
한계점:
제안된 알고리즘의 다항식 최악의 경우 후회 경계는 실제 성능을 완벽히 반영하지 못할 수 있음.
실험에 사용된 데이터셋의 일반화 가능성에 대한 추가 검토 필요.
알고리즘의 계산 복잡도에 대한 분석 및 개선 필요.
👍