본 논문은 외부 피드백 없이 언어 모델이 반복적으로 출력을 개선하는 내재적 자기 수정(intrinsic self-correction)의 성능 향상에 대한 설명을 제공합니다. 프롬프트가 은닉 상태에 어떻게 해석 가능한 변화를 유도하고 출력 분포에 영향을 미치는지 조사하여, 각 프롬프트 유도 변화는 선형 표현 벡터의 선형 스팬에 존재하고 개별 개념 정렬을 기반으로 토큰을 자연스럽게 분리한다는 가설을 세웁니다. 이를 바탕으로 자기 수정에 대한 수학적 공식을 제시하고 정렬 크기에 기반한 출력 토큰에 대한 집중 결과를 도출합니다. zephyr-7b-sft를 사용한 텍스트 해독 실험에서 유해한 지시어 하에 프롬프트 유도 변화의 내적과 상위 100개 가장 유해한 토큰의 임베딩 해제 간의 차이와 하위 100개 가장 유해하지 않은 토큰의 임베딩 해제 간의 차이가 상당함을 보여줍니다. 이는 자기 수정 프롬프트가 언어 모델의 잠재적 개념 인식 능력을 향상시킨다는 것을 시사합니다. 본 분석은 프롬프트가 어떻게 설명 가능하게 작동하는지 특징 지어 자기 수정의 기본 메커니즘에 대한 통찰력을 제공합니다. 코드는 재현성을 위해 공개됩니다.