Sign In

MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization

Created by
  • Haebom
Category
Empty

저자

Yougang Lyu, Lingyong Yan, Zihan Wang, Dawei Yin, Pengjie Ren, Maarten de Rijke, Zhaochun Ren

개요

본 논문은 인간의 가치와 부합하도록 거대 언어 모델(LLM)을 정렬하는 문제를 다룬다. 특히, 특정 작업에서 인간을 능가하는 강력한 LLM(학생)을 약한 감독 신호를 제공하는 약한 LLM(교사)을 통해 정렬하는 '약한-강한 정렬' 문제에 초점을 맞춘다. 기존 방법들이 강한-약한 정렬이나 자기 정렬에 집중하는 것과 달리, 본 논문은 다중 에이전트 대조 선호도 최적화(MACPO) 프레임워크를 제안한다. MACPO는 약한 교사와 강한 학생이 서로의 긍정적 행동을 강화하고 부정적 행동을 처벌함으로써 상호 학습을 가능하게 한다. 여기에는 상호 긍정적 행동 증강 전략과 어려운 부정적 행동 생성 전략이 포함된다. HH-RLHF 및 PKU-SafeRLHF 데이터셋을 이용한 실험 결과, MACPO가 강한 학생과 약한 교사 모두의 정렬 성능을 향상시키며, 약한 교사의 수가 증가할수록 성능이 더 향상됨을 보여준다.

시사점, 한계점

시사점:
약한-강한 정렬 문제에 대한 새로운 접근 방식인 MACPO 프레임워크 제시
약한 교사와 강한 학생의 상호 학습을 통한 효과적인 정렬 성능 향상
약한 교사의 수 증가에 따른 정렬 성능 개선 확인
자동 평가 지표와 인간 평가 모두에서 성능 향상 입증
한계점:
제안된 방법의 일반화 성능에 대한 추가 연구 필요
다양한 종류의 LLM과 데이터셋에 대한 실험 확장 필요
약한 교사의 품질에 대한 의존성 및 이를 개선할 방안에 대한 추가 연구 필요
실제 세계 적용 시 발생할 수 있는 문제점 및 해결 방안에 대한 추가 연구 필요
👍