본 기술 노트는 디코더 전용 트랜스포머에서 역 순열 학습 문제를 연구합니다. 순열과 해당 순열이 적용된 문자열이 주어졌을 때, 모델은 원래 (``정규'') 문자열을 생성해야 합니다. 이 작업은 장기 컨텍스트 검색, 객관식 질문 및 문맥 내 학습을 포함한 다양한 추론 작업 전반에 걸쳐 자연스러운 견고성 속성을 모델링한다고 주장합니다. 주요 기여는 불가능성 결과입니다. 즉, 임의 깊이의 디코더 전용 트랜스포머는 이 작업을 학습할 수 없음을 보여줍니다. 이 결과는 디코더 전용 트랜스포머 모델의 표현 능력에 관한 것이며, 학습 역학이나 샘플 복잡성에 관계없이 적용됩니다. 역 순열 학습이 가능한 두 가지 대체 구성을 제공합니다. 첫 번째는 인과적 주의 마스크의 근본적인 역할을 강조하고, 인코더-디코더 트랜스포머와 더 널리 사용되는 디코더 전용 아키텍처의 표현 능력 간의 격차를 보여줍니다. 후자의 결과는 더욱 놀랍습니다. 입력에 "스크래치 토큰"으로 패딩하는 것만으로도 역 순열 학습이 가능한 구성을 얻을 수 있음을 보여줍니다. 이는 사고의 연쇄 프롬프트 또는 더 일반적으로 중간 "사고" 토큰이 이러한 토큰이 의미 있는 의미 정보를 인코딩하지 않더라도(예: 중간 계산 결과) 대형 언어 모델에서 추론을 가능하게 하는 대체 메커니즘을 시사할 수 있다고 추측합니다.