본 논문은 잡음이 없는 및 잡음이 있는 상황에서 다음 토큰 예측의 인-컨텍스트 추론에 대한 단일 계층 트랜스포머의 근사 능력과 수렴 동작을 연구합니다. 기존의 이론적 결과는 첫 번째 기울기 단계 또는 샘플 수가 무한할 때의 인-컨텍스트 추론 동작을 이해하는 데 중점을 두었습니다. 또한, 수렴 속도나 일반화 능력은 알려지지 않았습니다. 본 연구는 선형 및 ReLU 어텐션을 사용하여 증명 가능하게 베이즈 최적의 단일 계층 트랜스포머 클래스가 존재함을 보임으로써 이러한 간격을 해소합니다. 기울기 하강법으로 훈련될 때, 본 논문은 유한 샘플 분석을 통해 이러한 트랜스포머의 기대 손실이 베이즈 위험에 선형 속도로 수렴함을 보여줍니다. 또한, 훈련된 모델이 보이지 않는 샘플로 일반화되고 이전 연구에서 경험적으로 관찰된 학습 동작을 보임을 증명합니다. 본 논문의 이론적 결과는 광범위한 실험적 검증에 의해 더욱 뒷받침됩니다.