본 논문은 최근 주목받는 언어 모델의 컨텍스트 학습 능력에 대한 수학적 이해를 심화시키고자, 선형 어텐션 모델이 컨텍스트 창 내 데이터로부터 작업 벡터를 암묵적으로 학습하기 위해 투영된 경사 하강법 반복을 모방할 수 있다는 기존 연구에 기반합니다. 전역 작업 분포를 조건부 작업 분포의 합집합으로 분할하는 새로운 설정을 고려하여, 단일 계층 어텐션 모델을 사용하여 조건부 작업 분포와 관련된 사전 정보를 학습하기 위한 작업별 프롬프트와 예측 헤드의 사용을 조사합니다. 손실 지형에 대한 결과는 작업별 프롬프트가 공분산-평균 분리를 촉진하여 프롬프트 튜닝이 분포의 조건부 평균을 설명하고 분산은 컨텍스트 학습을 통해 학습/설명됨을 보여줍니다. 작업별 헤드를 통합하면 평균 및 분산 구성 요소의 추정을 완전히 분리하여 이 과정을 더욱 지원합니다. 이러한 공분산-평균 관점은 프롬프트와 어텐션 가중치를 공동으로 훈련하는 것이 사전 훈련 후 미세 조정보다 증명 가능하게 도움이 되는 방식을 유사하게 설명합니다.