본 논문은 Transformer 기반 언어 모델의 재귀적 언어 구조 추론 능력을 문맥 자유 문법(CFG)으로 정의된 계층적 규칙을 사용하여 생성된 복잡한 문장을 통해 조사합니다. GPT와 같은 생성 모델이 CFG에 의해 정의된 계층 구조를 정확하게 학습하고 추론하며, 해당 구조를 기반으로 문장을 생성할 수 있음을 보여줍니다. 또한 모델의 내부 동작을 분석하여 은닉 상태가 CFG의 구조를 정확하게 포착하고, 주의 패턴이 동적 계획 알고리즘의 정보 전달과 유사함을 밝힙니다. 추가적으로 절대 위치 임베딩보다 상대 및 회전 임베딩이 우수함, 균일 주의만으로도 놀라울 정도로 효과적임 (Canon layer에 대한 후속 연구 촉진), 인코더 전용 모델이 자기회귀 모델보다 CFG에 대한 심층 구조 추론에 어려움을 겪음, 그리고 사전 훈련 데이터에 구조적 또는 구문적 노이즈를 주입하면 손상된 언어 프롬프트에 대한 강건성이 현저히 향상됨을 보여줍니다.