본 논문은 강력한 AI 모델이 등장하고, 이러한 모델들이 Alignment Faking과 같은 새로운 방법을 통해 위험 감지 시도를 회피함에 따라 AI 위험 감지가 더욱 어려워지는 문제를 다룹니다. 인간의 위험한 행동(타인에게 해를 끼칠 수 있는 불법 행위)이 강한 가치관에 의해 이끌리는 경우가 많다는 점에 착안하여, AI 모델 내부의 가치를 식별하는 것이 AI의 위험한 행동에 대한 조기 경보 시스템이 될 수 있다고 주장합니다. 이를 위해 연구진은 다양한 AI 가치 등급에 대한 AI 모델의 우선순위를 밝히는 평가 파이프라인인 LitmusValues를 개발하고, 권력 추구와 같은 AI 안전 위험과 관련된 시나리오에서 가치들을 서로 대립시키는 다양한 딜레마 모음인 AIRiskDilemmas를 수집했습니다. AI 모델의 가치 우선순위를 측정하여 얻은 자기 일관적인 예측 가치 우선순위를 통해 잠재적인 위험을 밝혀낼 수 있음을 보여줍니다. LitmusValues의 가치(돌봄과 같은, 겉으로는 무해한 가치 포함)가 AIRiskDilemmas에서 관찰된 위험 행동과 HarmBench에서 관찰되지 않은 위험 행동 모두를 예측할 수 있음을 실험적으로 증명합니다.