본 논문은 Transformer와 같은 대규모 자기회귀 모델이 새로운 가중치 학습 없이 문맥 내 학습(ICL)을 통해 작업을 해결할 수 있다는 점에 주목합니다. 많은 작업(예: 선형 회귀)에서 데이터는 요인화되는데, 이는 예를 들어 선형 계수와 같이 데이터를 생성하는 작업 잠재 변수가 주어지면 예제가 독립적임을 의미합니다. 최적의 예측 변수는 작업 잠재 변수를 추론하여 이러한 요인화를 활용하지만, Transformer가 이를 암시적으로 수행하는지 또는 대신 어텐션 계층에 의해 가능해진 휴리스틱 및 통계적 지름길을 활용하는지는 불분명합니다. 본 논문은 작업 잠재 변수를 명시적으로 추론하는 효과를 체계적으로 조사합니다. 지름길을 방지하고 보다 구조화된 솔루션을 선호하도록 설계된 병목 현상으로 Transformer 아키텍처를 최소한으로 수정한 후 다양한 ICL 작업에 걸쳐 표준 Transformer와 성능을 비교합니다. 직관과 일부 최근 연구와는 달리, 두 가지 간에 눈에 띄는 차이를 거의 발견하지 못했습니다. 일반적으로 작업 관련 잠재 변수에 대한 편향은 분포 외 성능을 향상시키지 않습니다. 흥미롭게도, 병목 현상이 컨텍스트에서 잠재적인 작업 변수를 효과적으로 추출하는 것을 학습하지만, 다운스트림 처리가 강력한 예측에 이를 활용하는 데 어려움을 겪는다는 것을 발견했습니다.