본 논문은 인간 피드백 강화 학습(RLHF) 등의 정렬 기법에 의해 주도되는 생성형 AI의 최근 발전에 초점을 맞추고 있습니다. RLHF 및 관련 기법은 일반적으로 이진 또는 순위 선택 인간 선호도의 데이터 세트를 구성하고 이러한 선호도에 맞춰 모델을 미세 조정하는 것을 포함합니다. 본 논문은 이러한 데이터 세트에 인코딩된 선호도를 이해하고 일반적인 인간 선호도를 식별하는 데 초점을 이동합니다. 연구 결과, 거의 5,000개의 고유한 선호도 집합에서 선택된 21개의 선호도 범주라는 작은 하위 집합이 개인 간 선호도 변화의 89% 이상을 포착한다는 사실을 발견했습니다. 이 작은 선호도 집합은 심리학이나 얼굴 인식 연구에서 인간 변화를 특징짓는 기존 연구 결과와 유사하게 인간 선호도의 정준 기저와 유사합니다. 합성 및 경험적 평가를 통해 저차원의 정준 인간 선호도 집합이 전체 데이터 세트와 특정 주제 내에서 일반화된다는 것을 확인했습니다. 또한 선호도 기반 범주가 모델 정렬에 대한 심층적인 통찰력을 제공하는 모델 평가와 선호도로 정의된 하위 집합에 대한 미세 조정이 모델을 성공적으로 정렬시키는 모델 훈련에서 선호도 기저의 유용성을 보여줍니다.