Sign In

Abstraction Alignment: Comparing Model-Learned and Human-Encoded Conceptual Relationships

Created by
  • Haebom
Category
Empty

저자

Angie Boggust, Hyemin Bang, Hendrik Strobelt, Arvind Satyanarayan

개요

본 논문은 모델의 추상화 학습을 평가하기 위한 방법론인 "추상화 정렬(Abstraction Alignment)"을 제안한다. 기존의 해석 가능성 방법론이 모델의 학습된 개념을 식별하는 데 초점을 맞춘 반면, 추상화 정렬은 모델의 추상화를 구성하는 개념 간의 관계를 간과한다는 점을 지적한다. 추상화 정렬은 도메인 관련 인간 지식을 추상화 그래프로 외재화하고, 이를 기준으로 모델의 불확실성이 인간 추상화에 의해 얼마나 설명되는지 측정하여 모델의 동작을 평가한다. 이를 통해 모델이 학습한 인간 개념과 재발하는 오정렬 위치를 식별하고, 전문가 평가를 통해 기존 모델 품질 메트릭의 설명력을 향상시키며, 현재 인간 추상화를 개선할 수 있음을 보여준다.

시사점, 한계점

시사점:
모델의 학습된 추상화가 인간의 지식과 얼마나 일치하는지 평가하는 새로운 방법론 제시.
모델의 오정렬 위치를 파악하여 모델 개선에 기여.
기존 모델 품질 메트릭의 설명력 향상.
인간 추상화 자체의 개선 가능성 제시.
한계점:
추상화 그래프 구축에 도메인 전문가의 지식과 노력이 필요.
평가 결과가 추상화 그래프의 품질에 의존적.
특정 도메인에 국한될 수 있으며, 다른 도메인으로의 일반화 어려움 가능성.
👍