Search-Time Data Contamination

작성자

Haebom

카테고리

Empty

저자

Ziwen Han, Meher Mankikar, Julian Michael, Zifan Wang

개요

본 논문은 검색 기반 대형 언어 모델(LLM) 에이전트 평가에서 발생하는 새로운 형태의 데이터 오염인 검색 시간 오염(STC) 문제를 제기한다. STC는 에이전트가 온라인 소스에서 정보를 수집하는 과정에서 평가 데이터셋의 질문과 답변이 포함된 소스를 검색하여, 실제 추론이나 이유 추론 대신 답을 복사함으로써 벤치마크의 무결성을 훼손하는 현상이다. 특히 HuggingFace 플랫폼에 공개된 평가 데이터셋이 STC의 주요 원인으로 지목되었으며, 실험 결과 세 가지 벤치마크(HLE, SimpleQA, GPQA)에서 약 3%의 질문에 대해 에이전트가 HuggingFace에서 정답을 직접 찾는 것을 확인했다. HuggingFace 접근을 차단했을 때 오염된 질문에 대한 정확도가 약 15% 감소한 것으로 나타났으며, HuggingFace 외에도 다른 공개적으로 접근 가능한 평가 데이터셋이 STC의 원인일 수 있음을 보여주는 추가 실험 결과도 제시한다. 마지막으로, STC 문제를 해결하고 검색 기반 LLM 에이전트의 신뢰할 수 있는 평가를 보장하기 위한 벤치마크 설계 및 결과 보고에 대한 모범 사례를 제안하고, 실험 로그를 공개한다.

시사점, 한계점

•

시사점: 검색 기반 LLM 에이전트 평가 시 발생하는 새로운 데이터 오염 유형인 STC를 규명하고, 그 심각성을 실험적으로 증명하였다. HuggingFace와 같은 공개 플랫폼의 데이터셋이 STC의 주요 원인임을 밝히고, 이를 해결하기 위한 벤치마크 설계 및 결과 보고 모범 사례를 제시하였다. 실험 로그 공개를 통해 연구의 투명성을 확보하였다.

•

한계점: HuggingFace만 차단했을 때의 영향을 분석했지만, 다른 공개 데이터셋의 영향은 추가 연구가 필요하다. STC 문제를 완전히 해결할 수 있는 만능 해결책은 제시하지 못했다. 본 연구에서 제시된 모범 사례의 실효성은 추가적인 연구를 통해 검증되어야 한다.

PDF 보기

Made with Slashpage