Attend or Perish: Benchmarking Attention in Algorithmic Reasoning
Created by
Haebom
Category
Empty
저자
Michal Spiegel, Michal \v{S}tefanik, Marek Kadl\v{c}ik, Josef Kucha\v{r}
개요
본 논문은 사전 훈련된 언어 모델이 이전에 보지 못한 입력/출력 영역에서 알고리즘 작업을 신뢰할 수 있게 수행할 수 있는지 여부를 조사한다. 기존 벤치마크는 암기 효과를 제거하지 못하는 한계가 있기에, 본 논문에서는 무한한 입력 영역을 가진 6가지 알고리즘 작업으로 구성된 새로운 벤치마크를 제안한다. 이 벤치마크는 모델의 외삽 능력(새로운 길이, 값 범위 또는 입력 영역 포함)과 어텐션 맵을 통해 기능 메커니즘의 강건성을 평가할 수 있도록 설계되었다. 모든 작업과 상호 운용성 방법의 구현은 https://github.com/michalspiegel/AttentionSpan 에서 공개적으로 제공된다.
시사점: 무한한 입력 영역을 가진 알고리즘 작업을 통해 모델의 일반화 능력과 알고리즘적 추론 능력을 보다 정확하게 평가할 수 있는 새로운 벤치마크를 제시하였다. 어텐션 맵 분석을 통해 모델의 내부 기능 메커니즘의 강건성을 평가하는 새로운 접근 방식을 제시하였다. 공개된 코드를 통해 연구의 재현성과 확장성을 높였다.
•
한계점: 제시된 6가지 작업만으로는 모든 종류의 알고리즘적 추론 능력을 완벽하게 평가하기에는 부족할 수 있다. 어텐션 맵 분석이 모델의 내부 작동 방식을 완전히 설명하지 못할 수 있다. 새로운 벤치마크의 난이도와 적용 가능한 모델의 범위에 대한 추가적인 연구가 필요하다.