농업 관리에서 정확한 머신러닝 기반 작물 분류를 위해서는 정확한 지상 진실(GT) 데이터가 필수적이나, 작물 오표기 및 토지 식별 오류와 같은 문제가 흔히 발생합니다. 본 논문에서는 다중 시계열 Sentinel-2 데이터를 활용하여 이러한 문제를 해결하기 위한 다단계 GT 정제 프레임워크를 제안합니다. 구체적으로, 이 프레임워크는 농경지에 대한 임베딩 생성, 유사한 작물 프로필 클러스터링, GT 오류를 나타내는 이상치 식별을 활용합니다. 거짓 색상 합성(FCC) 검사를 통해 클러스터를 검증하고, 거리 기반 메트릭을 사용하여 이 검증 프로세스의 규모를 조정하고 자동화했습니다. 정제된 GT 데이터와 정제되지 않은 GT 데이터로 모델을 훈련시켰을 때 GT 데이터 정제의 중요성이 명확하게 나타났습니다. 예를 들어, 정제된 GT 데이터로 Random Forest 모델을 훈련시켰을 때 F1 점수 측정 기준에서 최대 70%의 절대 백분율 향상을 달성했습니다. 이 접근 방식은 작물 분류 방법론을 발전시키며, 대출 심사 및 농업 의사 결정 개선을 위한 응용 분야에 잠재력을 가지고 있습니다.