A Theory of Learning with Autoregressive Chain of Thought
Created by
Haebom
저자
Nirmit Joshi, Gal Vardi, Adam Block, Surbhi Goel, Zhiyuan Li, Theodor Misiakiewicz, Nathan Srebro
개요
본 논문은 시퀀스를 다음 토큰으로 생성하는 기본 클래스가 주어졌을 때, 시간 불변 생성기를 여러 단계 반복하여 사고 과정(chain-of-thought)을 생성하고 최종 토큰을 답으로 사용하는 프롬프트-답변 매핑 학습을 고려합니다. 사고 과정이 관측되는 경우와 프롬프트-답변 쌍만으로 학습하는 경우(사고 과정이 잠재적인 경우) 모두에 대한 학습 문제를 공식화하고, 기본 클래스의 일반적인 특성(예: VC 차원) 및 선형 임계값과 같은 특정 기본 클래스에 대해 표본 및 계산 복잡도를 분석합니다. 보편적인 표현이 가능하고 계산적으로 다루기 쉬운 사고 과정 학습을 허용하는 간단한 기본 클래스를 제시하며, 시간 불변성으로 인해 사고 과정의 길이와 무관한 표본 복잡도를 갖는다는 점이 핵심입니다. 본 연구에서 어텐션(Attention)은 자연스럽게 도출됩니다.
시사점, 한계점
•
시사점:
◦
시간 불변 생성기를 이용한 사고 과정 학습의 표본 복잡도가 사고 과정의 길이에 의존하지 않음을 보임으로써, 긴 사고 과정을 효율적으로 학습할 수 있는 가능성을 제시합니다.
◦
보편적인 표현이 가능하고 계산적으로 효율적인 사고 과정 학습을 위한 새로운 기본 클래스를 제안합니다.