본 논문은 GPT 모델의 자기회귀적 다음 단어 예측 패러다임의 한계점(계획, 작업 기억, 역추적, 추론 능력 부족)을 코드 이해라는 특정 영역에서 실증적으로 확인하고, 이를 극복하기 위한 새로운 패러다임을 제시합니다. 기존 GPT 모델이 자기회귀적 방식으로 다음 단어만 예측하는 한계를 극복하기 위해, 이미지 생성(DALL-E 2, Sora) 및 단백질 구조 생성(AlphaFold-3)에서 성공적으로 활용된 확산 기법에서 영감을 얻어 새로운 패러다임을 제시합니다. 코드를 자연어처럼 인코딩하는 대신, 이미지 및 단백질 구조를 모방한 이종 이미지 패러다임으로 인코딩하여 전역 정보를 기억하는 방식을 채택합니다. Sora의 CLIP 기반 text-to-image 인코더 모델을 바탕으로 text-to-code 인코더 모델을 설계하여 다양한 코드 이해 작업에 적용하고, 456,360개의 텍스트-코드 쌍에 대한 자기 지도 학습을 통해 새로운 데이터에 대한 제로샷 예측을 달성합니다. 이는 자기회귀적 한계를 피하기 위한 새로운 패러다임 하에서 확산 기법을 이용한 코드 생성에 대한 후속 연구의 기초를 마련합니다.