본 논문은 인공지능 시스템의 안전성과 신뢰성을 보장하기 위해 필수적인 가치 정렬(value alignment) 문제를 다룬다. 특히, 인간의 가치를 반영하는 인간 선호도 모델링의 강건성(robustness)에 초점을 맞춰, 선호도 모델의 민감도를 분석한다. Bradley-Terry 모델과 Placket-Luce 모델을 대상으로, 일부 선호도의 확률 변화가 다른 선호도 예측에 미치는 영향을 이론적으로 분석하여, 특히 지배적인 선호도(확률이 0 또는 1에 가까운 선호도)의 경우, 작은 변화에도 선호도 확률이 크게 변할 수 있음을 밝혔다. 이러한 민감도가 심각해지는 특정 조건을 제시하고, AI 시스템의 가치 정렬의 강건성 및 안전성에 대한 실질적인 함의를 논의한다.