본 논문은 대규모 언어 모델(LLM)이 소프트웨어 엔지니어링에서 뛰어난 성능을 보이지만, 특히 타사 라이브러리 API의 빈번한 업데이트와 관련하여 지속적으로 진화하는 코드 지식에 적응하는 데 어려움을 겪는다는 점을 지적합니다. 이러한 한계는 정적인 사전 학습 데이터셋으로 인해 종종 실행 불가능한 코드 또는 최적이 아닌 안전성과 효율성을 가진 구현으로 이어집니다. 이를 해결하기 위해, 본 논문에서는 낡은 코드 패턴을 식별하고 Python 타사 라이브러리에서 실시간 코드 지식 업데이트를 수집하는 데이터 엔진인 CODESYNC를 소개합니다. CODESYNC를 기반으로, 본 논문은 여섯 개의 Python 라이브러리에서 220개 API에 대한 실제 업데이트를 다루는, LLM의 코드 진화 동기화 능력을 평가하기 위한 포괄적인 벤치마크인 CODESYNCBENCH를 개발했습니다. 이 벤치마크는 세 가지 평가 작업에 걸쳐 3,300개의 테스트 사례와 2,200개의 학습 샘플로 구성된 업데이트 인식 지침 미세 조정 데이터셋을 제공합니다. 14개의 최첨단 LLM에 대한 광범위한 실험 결과, 고급 지식 업데이트 방법(예: DPO, ORPO, SimPO)의 지원을 받더라도 동적 코드 진화에 어려움을 겪는다는 것을 보여줍니다. 본 논문은 본 벤치마크가 향후 실시간 코드 지식 업데이트를 위한 보다 효과적인 방법 개발의 견고한 기반을 제공할 수 있다고 믿습니다. 실험 코드와 데이터셋은 https://github.com/Lucky-voyage/Code-Sync 에서 공개적으로 이용 가능합니다.