본 논문은 대규모 언어 모델(LLM)을 활용하여 실제 데이터셋의 숨겨진 품질 문제를 발견하는 능력을 측정하기 위한 벤치마크를 제시합니다. 널리 사용되는 데이터셋 플랫폼 8곳에서 수집한 221개의 실제 사례를 엄선하여 GPT-4를 이용한 자동 평가 프레임워크를 제안합니다. 이 프레임워크는 전문가 평가와 높은 일치율을 보이며, 경쟁력 있는 Curator 에이전트조차도 숨겨진 데이터 품질 문제의 약 30%만을 발견하는 것으로 나타나, LLM 에이전트를 실제 데이터셋 관리에 적용하는 데는 추가적인 연구가 필요함을 시사합니다. 데이터와 코드는 공개적으로 제공됩니다.