Peter Shaw, James Cohan, Jacob Eisenstein, Kenton Lee, Jonathan Berant, Kristina Toutanova
개요
본 논문은 트랜스포머 가중치에 매핑될 수 있는 새로운 프로그래밍 언어인 ALTA와 컴파일러를 제안합니다. ALTA는 Weiss et al. (2021)의 RASP와 Lindner et al. (2023)의 Tracr(RASP 프로그램을 트랜스포머 가중치로 컴파일하는 컴파일러)에서 영감을 받았으며, 루프 표현 및 Universal Transformers로의 컴파일 기능 등을 추가적으로 제공합니다. ALTA를 사용하여 트랜스포머가 패리티 및 덧셈 계산을 위한 길이 불변 알고리즘과 구성적 일반화 작업의 SCAN 벤치마크에 대한 해결책을 중간 스크래치패드 디코딩 단계 없이 표현하는 방법을 구성적으로 보여줍니다. 또한 알고리즘의 표현력이 확립되었지만 주어진 훈련 세트에 대한 end-to-end 훈련이 원하는 알고리즘과 일치하는 동작을 유도하지 못하는 경우를 분석하기 위한 도구를 제안합니다. 이를 위해 ALTA 실행 추적을 보다 세분화된 감독 신호로 사용하는 훈련을 탐구합니다. 이를 통해 다양한 알고리즘의 학습 가능성을 데이터 가용성 및 위치 인코딩과 같은 모델링 결정과 관련된 추가 실험 및 이론적 분석이 가능해집니다. ALTA 프레임워크(언어 사양, 기호 해석기 및 가중치 컴파일러)를 공개하여 추가적인 응용 프로그램과 통찰력을 가능하게 합니다.
시사점, 한계점
•
시사점:
◦
트랜스포머가 다양한 알고리즘을 표현할 수 있음을 구성적으로 증명하는 새로운 프로그래밍 언어 ALTA와 컴파일러 제시.
◦
루프 지원 및 Universal Transformers로의 컴파일 등 기존 RASP 기반 언어의 기능 확장.
◦
중간 스크래치패드 디코딩 단계 없이 길이 불변 알고리즘 구현 가능.
◦
ALTA 실행 추적을 활용한 세분화된 감독 신호를 통한 학습 개선 가능성 제시.
◦
ALTA 프레임워크 공개를 통한 지속적인 연구 및 응용 가능성 확대.
•
한계점:
◦
ALTA의 표현력과 end-to-end 학습 성공 간의 관계에 대한 추가적인 연구 필요.
◦
특정 알고리즘의 학습 가능성에 대한 데이터 가용성 및 모델링 결정(예: 위치 인코딩)의 영향에 대한 더욱 심층적인 분석 필요.