Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach

Created by
  • Haebom

저자

Xinnan Zhang, Chenliang Li, Siliang Zeng, Jiaxiang Li, Zhongruo Wang, Kaixiang Lin, Songtao Lu, Alfredo Garcia, Mingyi Hong

개요

본 논문은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 새로운 방법인 Iterative Reweight-then-Optimize (IRO)를 제시합니다. 기존의 RLHF나 DPO와 달리 모델 파라미터를 직접 수정하지 않고, 강화학습 기반의 보상 함수를 이용하여 테스트 시간에 모델 출력의 질을 향상시킵니다. IRO는 기본 모델의 출력 후보들을 생성하고, 가치 함수를 이용하여 재샘플링하고, 새로운 가치 함수를 학습하는 과정을 반복적으로 수행합니다. 테스트 시간에는 학습된 가치 함수들을 이용하여 탐색 기반 최적화 과정을 통해 기본 모델의 생성을 안내합니다. 이는 모델 가중치에 접근할 수 없더라도 사용자 자신의 데이터셋에 모델을 맞출 수 있도록 합니다.

시사점, 한계점

시사점:
모델 파라미터 접근 없이 LLM을 인간 선호도에 맞출 수 있는 새로운 방법 제시
테스트 시간에 모델 성능 향상 가능
OpenAI의 RFT와 유사하게 사용자 데이터셋을 이용한 모델 정렬 가능
한계점:
가치 함수의 불완전성으로 인한 최적이 아닌 출력 가능성
탐색 기반 최적화 과정으로 인한 높은 추론 비용 발생 가능성
IRO의 성능이 기존 RLHF나 DPO에 비해 얼마나 우수한지에 대한 실험적 검증 필요
👍