본 논문은 대규모 언어 모델(LLM) 평가에서 데이터 오염 문제를 해결하기 위해 동적 데이터 평가 방법인 AdEval을 제안합니다. AdEval은 정적 데이터셋의 지식 포인트와 주요 아이디어를 추출하여 정적 벤치마크의 핵심 내용과 동적으로 정렬함으로써 데이터 오염 위험을 줄입니다. 온라인 검색을 통해 배경 정보를 얻어 지식 포인트에 대한 자세한 설명을 생성하고, Bloom의 인지 계층 구조를 기반으로 6가지 차원(기억, 이해, 적용, 분석, 평가, 창조)에 걸쳐 질문을 설계하여 다층적 인지 평가를 가능하게 합니다. 반복적인 질문 재구성을 통해 동적으로 생성된 데이터셋의 복잡성을 제어합니다. 여러 데이터셋에 대한 실험 결과, AdEval은 데이터 오염의 영향을 효과적으로 완화하고, 복잡성 제어 부족 및 단일 차원 평가 문제를 해결하며, LLM 평가의 공정성, 신뢰성, 다양성을 향상시키는 것으로 나타났습니다.