Deep sequence models tend to memorize geometrically; it is unclear why
Created by
Haebom
Category
Empty
저자
Shahriar Noroozizadeh, Vaishnavh Nagarajan, Elan Rosenfeld, Sanjiv Kumar
개요
Transformer 모델의 기억을 단순히 개체 간의 공기(co-occurrence)를 저장하는 것으로 간주하는 대신, 기하학적 관점에서 접근합니다. 모델이 훈련 과정에서 지정된 지역적인 공기만 저장하는 것이 아니라, 자체적으로 기하학을 합성하여 전역적인 관계를 인코딩한다는 것을 밝힙니다. 이를 통해 어려운 추론 작업을 쉽게 학습 가능한 단일 단계 기하학적 작업으로 단순화합니다.
시사점, 한계점
•
시사점:
◦
Transformer 모델이 지역적 연관 관계 최적화에도 불구하고 우아한 기하학을 학습한다는 것을 발견했습니다.
◦
Node2Vec과의 연결 분석을 통해, 이러한 기하학이 다양한 압력 없이 자연스럽게 발생하는 스펙트럼 편향에서 비롯됨을 보여줍니다.
◦
Transformer 메모리를 더욱 기하학적으로 만들기 위한 실질적인 여지를 제시합니다.
◦
지식 습득, 용량, 발견 및 학습 해제와 같은 연구 분야에서 기본적인 직관을 재고하도록 권장합니다.
•
한계점:
◦
논문의 구체적인 실험 결과나 모델 아키텍처, 훈련 세부 사항에 대한 정보는 제공되지 않습니다.