Sign In

CURATRON: Complete and Robust Preference Data for Rigorous Alignment of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Son The Nguyen, Niranjan Uma Naresh, Theja Tulabandhula

개요

본 논문은 선호도 학습(PL)을 통해 인간의 가치관에 부합하는 대규모 언어 모델(LLM)을 정렬하는 데 있어, 선호도 데이터세트의 불완전하고 손상된 데이터 문제를 해결합니다. 특히, 이러한 문제를 해결하기 위해 데이터세트 내에서 가치를 견고하고 완벽하게 재조정하는 새로운 방법을 제안합니다. Bradley-Terry-Luce (BTL) 모델 및 그 일반화 모델과 같은 기존 모델을 견고하게 만드는 보장된 다항 시간 순위 알고리즘을 고안했습니다. 본 연구는 모델 응답당 최대 $O(n)$개의 교란된 쌍별 비교 결과를 허용하면서, 높은 확률로 $\epsilon$-최적 순위를 증명적으로 복구하는 알고리즘을 최초로 제안합니다. 또한, 부분적으로 관찰된 환경에서도 견고한 복구 결과를 보입니다. 실험을 통해 본 알고리즘이 일반 및 LLM 선호도 데이터세트 환경에서 적대적 노이즈 및 관찰되지 않은 비교를 잘 처리함을 확인했습니다.

시사점, 한계점

시사점:
선호도 학습 기반 LLM 정렬에서 데이터 품질 문제 해결을 위한 새로운 알고리즘 제안.
BTL 모델 및 그 일반화 모델의 견고성 향상.
적대적 노이즈 및 누락된 비교에 대한 강건한 성능 입증.
신뢰할 수 있고 윤리적으로 정렬된 AI 모델 개발에 기여.
한계점:
$O(n)$개의 교란된 쌍별 비교 결과에 대한 한계. (구체적인 한계 조건 명시 필요)
실제 LLM 환경에서의 성능 및 일반화에 대한 추가 연구 필요.
다른 종류의 데이터 손상 또는 공격에 대한 알고리즘의 효과에 대한 추가 검증 필요.
👍