Testing Transformer Learnability on the Arithmetic Sequence of Rooted Trees
Created by
Haebom
Category
Empty
저자
Alessandro Breccia, Federica Gerace, Marco Lippi, Gabriele Sicuro, Pierluigi Contucci
개요
자연수의 반복 소인수분해로 생성된 결정적 트리 시퀀스를 대규모 언어 모델이 학습할 수 있는지 연구합니다. 각 정수는 뿌리가 있는 평면 트리로 매핑되고, 결과 시퀀스 $\mathbb{N}\mathcal{T}$는 측정 가능한 통계 구조를 가진 산술 텍스트를 정의합니다. 변환기 네트워크(GPT-2 아키텍처)를 처음부터 처음 $10^{11}$개 요소에 대해 훈련하여 다음 단어 및 마스크된 단어 예측 작업에서 예측 능력을 테스트합니다. 모델은 $\mathbb{N}\mathcal{T}$의 내부 문법을 부분적으로 학습하여 비자명한 규칙성과 상관관계를 포착합니다. 이는 학습 가능성이 경험적 데이터를 넘어 산술의 구조 자체까지 확장될 수 있음을 시사합니다.