본 연구는 대규모 언어 모델(LLM)의 내부 메커니즘을 탐구하여, LLM의 마지막 토큰 표현만으로 원본 입력 텍스트를 얼마나 복원할 수 있는지 연구한다. Rep2Text라는 새로운 프레임워크를 제안하여, 마지막 토큰 표현을 디코딩 언어 모델의 임베딩 공간으로 투영하고, 이를 통해 입력 텍스트를 자동 회귀적으로 재구성한다. Llama-3.1-8B, Gemma-7B, Mistral-7B-v0.1, Llama-3.2-3B 등 다양한 모델 조합에 대한 실험 결과, 16토큰 시퀀스에서 평균적으로 절반 이상의 정보를 압축된 표현에서 복원할 수 있으며, 의미적 완전성과 일관성을 유지함을 확인했다. 또한, 긴 시퀀스에서는 토큰 수준 복구율이 감소하지만, 의미적 완전성은 유지되는 정보 병목 현상을 발견했다. Rep2Text는 분포 밖의 의료 데이터에 대해서도 견고한 일반화 성능을 보였다.