본 논문은 대규모 신경망 모델이 고위험 상황에서 사용됨에 따라 모델의 행동이 인간의 가치와 일치하는지에 대한 우려가 증가하고 있음을 지적한다. 해결책으로 해석 가능성, 특히 기계적 접근 방식을 제시하며, 이를 단순한 진단 도구가 아닌 정렬을 위한 설계 원칙으로 간주해야 한다고 주장한다. LIME이나 SHAP과 같은 사후 분석 방법은 직관적이지만 상관관계적 설명만 제공하는 반면, 회로 추적이나 활성 패치와 같은 기계적 기법은 RLHF, 적대적 공격 테스트, 헌법 AI와 같은 행동적 방법이 간과할 수 있는 기만적이거나 불일치하는 추론을 포함한 내부 오류에 대한 인과적 통찰력을 제공한다. 하지만 해석 가능성은 확장성, 인식론적 불확실성, 학습된 표현과 인간 개념 간의 불일치라는 과제에 직면한다. 따라서 안전하고 신뢰할 수 있는 AI를 위한 진전은 해석 가능성을 AI 연구 개발의 1차 목표로 삼고, 시스템이 효과적일 뿐만 아니라 감사 가능하고, 투명하며, 인간의 의도와 일치하도록 하는 데 달려 있다고 결론짓는다.