대규모 검색 데이터셋을 사용하여 강력한 검색 및 재순위 지정 모델을 학습하는 것이 일반적입니다. 하지만 일부 데이터셋은 모델 효과에 부정적인 영향을 미칠 수 있습니다. 본 논문에서는 BGE 컬렉션에서 15개 데이터셋 중 8개를 제거함으로써 학습 데이터셋 크기를 2.35배 줄이고 BEIR에서 nDCG@10을 1.0 포인트 향상시킨 사실을 발견했습니다. 이를 바탕으로, 특히 관련 패시지를 잘못된 것으로 분류하는 "가짜 음성"에 초점을 맞춰 학습 데이터 품질에 대한 심층적인 조사를 수행했습니다. 본 논문은 캐스케이딩 LLM 프롬프트를 사용하여 어려운 음성을 식별하고 재분류하는 간단하고 비용 효율적인 방법을 제안합니다. 실험 결과, 가짜 음성을 진짜 양성으로 재분류하면 BEIR에서 E5(기본) 및 Qwen2.5-7B 검색 모델의 nDCG@10이 0.71.4 향상되고, 제로샷 AIR-Bench 평가에서 1.71.8 향상됩니다. BEIR에서 Qwen2.5-3B와 같은 재분류된 데이터에 대해 미세 조정된 재순위 지정기에서도 유사한 성과 향상이 관찰되었습니다. GPT-4o의 판단이 GPT-4o-mini보다 사람의 판단과 더 높은 일치율을 보이는 점에서 캐스케이딩 설계의 신뢰성을 확인했습니다.