본 논문은 인간 피드백이 언어 모델에 미치는 예측 불가능하고 바람직하지 않은 영향을 해결하기 위해, 피드백 데이터가 무엇을 인코딩하는지에 대한 명확한 이해 부족 문제를 다룬다. "What's In My Human Feedback? (WIMHF)"라는 희소 자동 인코더를 사용하여 피드백 데이터를 설명하는 방법을 제시한다. WIMHF는 데이터 세트가 측정할 수 있는 선호도와 주석자가 실제로 표현하는 선호도를 모두 특성화한다. 7개의 데이터 세트를 분석하여, WIMHF는 블랙 박스 모델이 달성하는 선호도 예측 신호의 대부분을 설명하는 소수의 인간 해석 가능 특징을 식별한다. 이 특징들을 통해 다양한 인간의 선호도를 밝혀냈고, 데이터 세트 수준의 맥락이 미치는 역할을 보여주었다. WIMHF는 또한 유해한 선호도를 파악하고, 효과적인 데이터 큐레이션 및 개인화를 가능하게 한다.