대규모 언어 모델(LLM) 평가의 비효율성을 개선하기 위해, ATLAS라는 적응형 테스트 프레임워크를 제안한다. 기존의 고정된 항목 집합을 사용한 평가 방식은 항목의 품질과 정보성을 고려하지 않고 평균 정확도를 계산하며, 평가 비용이 많이 들고 시간이 오래 걸린다는 문제점을 가지고 있다. ATLAS는 항목 반응 이론(IRT)을 활용하여 Fisher 정보를 기반으로 항목을 선택함으로써 모델의 능력을 추정한다. 다섯 개의 주요 벤치마크 분석 결과, 3-6%의 항목이 부정적인 변별력을 보이며, 이는 주석 오류를 나타냈다. ATLAS는 항목 수를 90% 줄이면서도 측정 정확도를 유지하며, HellaSwag(5,608 항목)에서 단 42개의 항목만 사용해서도 전체 벤치마크 추정치와 일치하는 결과를 보였다(MAE 0.154). 또한, 항목 노출률을 10% 미만으로 유지하고 테스트 중첩을 16-27%로 유지하며, 4,000개 이상의 모델 테스트에서 IRT 기반 랭킹이 정확도 기반 랭킹과 다르게 나타났다.