Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models

Created by
  • Haebom

저자

Chengao Li, Hanyu Zhang, Yunkun Xu, Hongyan Xue, Xiang Ao, Qing He

개요

본 논문은 인간 피드백으로부터 강화 학습(RLHF)을 사용하여 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 방법을 다룹니다. 특히 상충되는 다양한 인간 선호도를 효과적으로 조정하는 문제를 해결하기 위해, 인간 가치 정렬을 다중 목표 최적화 문제로 설정하고, 상충될 수 있는 여러 목표들을 극대화하는 것을 목표로 합니다. 이를 위해, 다중 기울기 하강법을 사용하여 LLM을 다양한 선호도 분포에 맞추는 새로운 미세 조정 패러다임인 기울기 적응 정책 최적화(GAPO)를 제시합니다. GAPO는 각 목표에 대한 기울기를 적응적으로 다시 조정하여 목표 간의 절충을 최적으로 균형을 맞추는 업데이트 방향을 결정합니다. 또한, 사용자 선호도를 여러 목표에 걸쳐 통합하고 사용자의 특정 요구에 더 잘 맞는 파레토 해를 달성하는 P-GAPO를 제시합니다. 이론적 분석을 통해 GAPO가 여러 목표에 대해 파레토 최적 해로 수렴함을 보였으며, Mistral-7B에 대한 실험 결과는 GAPO가 현재 최첨단 방법보다 우수한 성능을 달성하여 유용성과 무해성 모두에서 우수한 성능을 보임을 보여줍니다.

시사점, 한계점

시사점:
다양하고 상충되는 인간 선호도를 고려한 LLM 정렬 문제에 대한 새로운 접근 방식 제시.
다중 목표 최적화를 통해 LLM의 유용성과 무해성을 동시에 향상시키는 GAPO 및 P-GAPO 알고리즘 제안.
이론적 분석 및 실험 결과를 통해 GAPO의 효과성 및 우수성 증명.
사용자 맞춤형 파레토 해를 제공하는 P-GAPO를 통해 사용자의 특정 요구 충족 가능성 증대.
한계점:
제안된 알고리즘의 계산 비용 및 복잡도에 대한 추가적인 분석 필요.
다양한 LLM 아키텍처 및 데이터셋에 대한 일반화 성능 검증 필요.
실제 사용 환경에서의 성능 및 안정성에 대한 추가적인 평가 필요.
다양한 인간 선호도를 정확하게 반영하는 방법에 대한 추가 연구 필요.
👍