How Do Transformers Learn Variable Binding in Symbolic Programs?
Created by
Haebom
저자
Yiwei Wu, Atticus Geiger, Raphael Milliere
개요
본 논문은 변수 바인딩(variable binding) 능력, 즉 변수와 값을 연결하는 능력이 기호적 계산과 인지에 필수적이라는 점을 바탕으로, 내장된 바인딩 연산이 없는 현대적인 신경망이 이 능력을 어떻게 획득하는지 연구합니다. 변수에 숫자 상수 또는 다른 변수를 할당하는 기호적 프로그램에서 쿼리된 변수의 참조를 해제하도록 Transformer를 훈련하여 이를 조사합니다. 각 프로그램은 쿼리된 값을 찾기 위해 최대 4단계까지 변수 할당 체인을 따라가야 하며, 방해 요소 역할을 하는 무관한 할당 체인도 포함합니다. 분석 결과, 훈련 중 세 가지 뚜렷한 단계(1) 숫자 상수의 무작위 예측, (2) 초기 변수 할당을 우선시하는 얕은 휴리스틱, (3) 할당 체인의 참조 해제를 위한 체계적인 메커니즘의 출현을 보이는 발달 경로가 드러납니다. 인과적 개입을 사용하여 모델이 잔여 스트림을 주소 지정 가능한 메모리 공간으로 활용하고 특수한 어텐션 헤드가 토큰 위치 간의 정보를 라우팅하는 것을 학습한다는 것을 발견했습니다. 이 메커니즘을 통해 모델은 계층 간에 변수 바인딩을 동적으로 추적하여 정확한 참조 해제를 수행할 수 있습니다. 결과적으로 Transformer 모델이 명시적인 아키텍처 지원 없이 체계적인 변수 바인딩을 구현하는 방법을 보여주며, 연결주의와 기호적 접근 방식을 연결합니다. 재현 가능한 연구를 촉진하기 위해 연구 결과를 탐색할 수 있는 대화형 웹 플랫폼인 Variable Scope(https://variablescope.org)를 개발했습니다.
시사점, 한계점
•
시사점:
◦
Transformer 모델이 명시적인 바인딩 메커니즘 없이도 변수 바인딩을 학습할 수 있음을 보여줌으로써, 연결주의와 기호적 접근 방식 간의 간극을 메웁니다.
◦
Transformer가 잔여 스트림을 주소 지정 가능한 메모리 공간으로 활용하는 새로운 메커니즘을 밝혀냈습니다.
◦
변수 바인딩 학습 과정의 발달 단계를 제시하여, 인공지능의 인지 발달에 대한 이해를 높입니다.
◦
재현 가능한 연구를 위한 웹 플랫폼 Variable Scope을 제공합니다.
•
한계점:
◦
현재 모델은 최대 4단계의 변수 할당 체인만 처리할 수 있습니다. 더 깊고 복잡한 체인에 대한 일반화 능력은 추가 연구가 필요합니다.
◦
실제 세계의 복잡한 문제에 적용하기 위한 추가적인 연구가 필요합니다.
◦
사용된 기호적 프로그램의 복잡성이 제한적일 수 있습니다. 더 다양하고 복잡한 프로그램에 대한 성능 평가가 필요합니다.