본 논문은 검색 기반 대형 언어 모델(LLM) 에이전트 평가에서 발생하는 새로운 형태의 데이터 오염인 검색 시간 오염(STC) 문제를 제기한다. STC는 에이전트가 온라인 소스에서 정보를 수집하는 과정에서 평가 데이터셋의 질문과 답변이 포함된 소스를 검색하여, 실제 추론이나 이유 추론 대신 답을 복사함으로써 벤치마크의 무결성을 훼손하는 현상이다. 특히 HuggingFace 플랫폼에 공개된 평가 데이터셋이 STC의 주요 원인으로 지목되었으며, 실험 결과 세 가지 벤치마크(HLE, SimpleQA, GPQA)에서 약 3%의 질문에 대해 에이전트가 HuggingFace에서 정답을 직접 찾는 것을 확인했다. HuggingFace 접근을 차단했을 때 오염된 질문에 대한 정확도가 약 15% 감소한 것으로 나타났으며, HuggingFace 외에도 다른 공개적으로 접근 가능한 평가 데이터셋이 STC의 원인일 수 있음을 보여주는 추가 실험 결과도 제시한다. 마지막으로, STC 문제를 해결하고 검색 기반 LLM 에이전트의 신뢰할 수 있는 평가를 보장하기 위한 벤치마크 설계 및 결과 보고에 대한 모범 사례를 제안하고, 실험 로그를 공개한다.