본 논문은 대규모 언어 모델(LLM) 평가 시 데이터 오염 문제를 해결하기 위해, 동적 데이터 평가 방법인 AdEval을 제안합니다. AdEval은 정적 데이터의 핵심 개념과 동적으로 생성된 질문을 정렬하기 위해 주요 지식 포인트와 주요 아이디어를 추출하고, 온라인 검색을 활용하여 관련 지식 포인트에 대한 자세한 설명을 제공하여 견고한 지식 지원을 갖춘 고품질 평가 샘플을 생성합니다. 또한 질문의 수와 복잡성을 제어하는 메커니즘을 통합하여 정적 데이터의 복잡성에 맞춰 동적으로 정렬하고 유연하게 조정하며, Bloom의 분류 체계에 기반하여 기억, 이해, 적용, 분석, 평가, 창조의 여섯 가지 인지 수준에 걸쳐 LLM을 다차원적으로 평가합니다. 다양한 데이터셋에 대한 실험 결과, AdEval이 데이터 오염의 영향을 효과적으로 줄이고 평가 과정의 공정성과 신뢰성을 향상시키는 것을 보여줍니다.