본 논문은 프로그래밍 보조 작업(코드 완성, 코드 삽입, 코드 수정 등)에 있어 기존 대규모 언어 모델의 한계를 극복하기 위해, 코딩 이력, 현재 코드, 사용자 지시사항 등 다양한 정보를 종합적으로 통합하는 새로운 대화형 프레임워크를 제안합니다. 이를 위해, 모델의 성능을 종합적으로 평가하는 새로운 벤치마크 APEval을 도입하고, GitHub 및 온라인 저지 플랫폼 등 다양한 소스로부터 훈련 데이터를 생성하는 데이터 생성 파이프라인 Programming-Instruct를 개발했습니다. 이 파이프라인을 통해 219K 개의 샘플을 생성하고, 여러 모델을 미세 조정하여 CursorCore 시리즈를 개발하였으며, CursorCore가 동일한 크기의 다른 모델보다 우수한 성능을 보임을 보였습니다. 이 프레임워크는 인라인 채팅 및 자동 편집과 같은 애플리케이션을 통합하여 코딩 어시스턴트의 발전에 기여합니다. 코드, 모델 및 데이터는 공개적으로 제공됩니다.