본 논문은 AI 시스템이 인간의 능력을 넘어서는 상황에서 인간 피드백을 통한 AI 정렬의 어려움을 다룹니다. 인간 피드백의 신뢰성 저하 문제를 해결하기 위해, 인간 평가자의 AI 시스템 행동에 대한 신념 모델을 제안합니다. 이 모델을 통해 인간의 가치를 추론하고, 그 추론의 모호성과 모호성이 사라지는 조건을 분석합니다. 정확한 신념 모델에 대한 의존도를 줄이기 위해, 신념 모델 커버링 완화를 제시하고, foundation model을 활용하여 커버링 신념 모델을 구성하는 새로운 접근 방식을 제안합니다.