본 논문은 머신러닝 기반 취약점 검출 모델의 성능 평가 방식에 대한 문제점을 제기하고, 시간에 따라 변화하는 취약점 정보를 반영한 새로운 평가 방법론을 제안합니다. 기존 연구들은 전체 데이터셋을 한꺼번에 사용하거나, 특정 시점의 데이터만 사용하는 방식으로 모델을 평가하여 실제 현장 적용 시 성능을 과대 또는 과소 평가할 위험이 있었습니다. 본 논문에서는 시간에 따른 취약점 정보의 변화를 고려하여, 각 시점에서 이용 가능한 정보만으로 모델을 훈련 및 평가하는 새로운 데이터셋 구성 방법을 제시합니다. 4개의 시간 기반 데이터셋(BigVul의 3개 프로젝트 + Vuldeepecker의 NVD)과 5개의 머신러닝 모델(Code2Vec, CodeBERT, LineVul, ReGVD, Vuldeepecker)을 사용하여 제안된 방법론을 검증하고, Mann-Kendall 검정을 통해 모델의 성능 변화 추세를 분석합니다.