본 논문은 최근 대규모 언어 모델(LLM)의 성능 향상으로 인해 다양한 언어 과제에서 우수한 성능을 보이는 것에 주목하며, LLM이 최초로 유효한 언어학적 금속 언어 분석을 생성할 수 있음을 보여줍니다. 프롬프팅을 통한 LLM의 행동 해석 가능성을 검증하는 연구 프로그램을 제시하고, 텍스트 기반 학습인 LLM의 금속 언어 능력 평가를 통해 일반적인 능력을 이해하고 언어학 이론 모델에 대한 새로운 관점을 제시합니다. 특히 OpenAI의 o1 모델이 구문 트리 생성 및 음운 일반화 작업에서 다른 모델보다 훨씬 우수한 성능을 보임을 실증하고, 이는 인간의 복잡한 인지 작업(언어 분석 등)에 사용되는 추론 구조를 모방하는 o1의 사고 연쇄 메커니즘 때문일 것이라고 추측합니다.