본 논문은 모델의 추상화 학습을 평가하기 위한 방법론인 "추상화 정렬(Abstraction Alignment)"을 제안한다. 기존의 해석 가능성 방법론이 모델의 학습된 개념을 식별하는 데 초점을 맞춘 반면, 추상화 정렬은 모델의 추상화를 구성하는 개념 간의 관계를 간과한다는 점을 지적한다. 추상화 정렬은 도메인 관련 인간 지식을 추상화 그래프로 외재화하고, 이를 기준으로 모델의 불확실성이 인간 추상화에 의해 얼마나 설명되는지 측정하여 모델의 동작을 평가한다. 이를 통해 모델이 학습한 인간 개념과 재발하는 오정렬 위치를 식별하고, 전문가 평가를 통해 기존 모델 품질 메트릭의 설명력을 향상시키며, 현재 인간 추상화를 개선할 수 있음을 보여준다.