Intra-neuronal attention within language models Relationships between activation and semantics
Created by
Haebom
Category
Empty
저자
Michael Pichat, William Pogrund, Paloma Pichat, Armanouche Gasparian, Samuel Demarchi, Corbet Alois Georgeon, Michael Veillet-Guillem
개요
본 연구는 언어 모델 내의 지각자 유형 뉴런이 신경 내 주의(intra-neuronal attention)를 수행하는 능력, 즉 자신이 특히 반응하는 토큰에 대한 특정 활성화 영역의 분할을 기반으로, 자신이 암호화하는 합성 사고 범주 내에서 서로 다른 동종 범주적 세그먼트를 식별하는 능력을 조사합니다. 따라서 이 연구의 목표는 형식적 뉴런이 활성화 기반 분할과 범주적 분할 사이에 얼마나 동형 관계를 설정할 수 있는지 확인하는 것입니다. 결과는 매우 높은 활성화 수준을 가진 토큰 수준에서만 미약하지만 그러한 관계가 존재함을 시사합니다. 이러한 신경 내 주의는 그 후 다음 레이어의 뉴런 수준에서 범주적 재구성 과정을 가능하게 하여 고수준 범주적 추상화의 점진적 형성에 기여합니다.
시사점, 한계점
•
시사점: 고활성화 토큰 수준에서 신경 내 주의의 존재 가능성을 제시하며, 이를 통해 고수준 범주적 추상화 형성에 대한 새로운 이해를 제공합니다. 다층 신경망에서의 범주적 재구성 과정에 대한 통찰력을 제공합니다.
•
한계점: 매우 높은 활성화 수준을 가진 토큰에만 국한된다는 점에서 일반화 가능성이 제한적입니다. 신경 내 주의와 범주적 재구성 과정 사이의 관계가 미약하다는 점에서 추가 연구가 필요합니다. 다른 유형의 뉴런이나 언어 모델에 대한 일반화 가능성이 검증되지 않았습니다.