강화 학습을 통한 인간 피드백(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 널리 사용되지만, 다양한 인간 가치와 소수 의견을 간과한 채, 사용자 간의 동질적인 선호도를 가정합니다. 개별 사용자에 맞게 별도의 선호도를 조정하여 이를 해결하는 개인화된 선호도 학습이 있지만, 그 효과를 평가하기 위한 표준화된 방법이 부족합니다. 본 논문에서는 성능뿐만 아니라 공정성, 의도하지 않은 영향 및 다양한 수준의 선호도 차이에 걸쳐 적응성을 측정하는 다면적인 평가 프레임워크를 제시합니다. 세 가지 선호도 데이터 세트에서 8가지 개인화 방법을 비교하는 광범위한 실험을 통해 사용자가 강하게 의견이 일치하지 않을 때 방법 간의 성능 차이가 최대 36%에 달할 수 있으며, 개인화로 인해 최대 20%의 안전성 불일치가 발생할 수 있음을 보여줍니다.