본 논문은 대규모 언어 모델(LLM)의 평가를 위한 확장 가능한 프레임워크인 "적응형 평가(Adaptive Evaluations)"를 제시한다. 이 프레임워크는 스캐폴딩된 언어 모델(평가자 에이전트)을 사용하여 대상 모델의 동작을 도메인 데이터셋에서 탐색하고, 모델의 실패 모드를 발견하고 조사할 수 있는 어려운 질문(과제)을 생성한다. 연구진은 다양한 데이터셋과 과제(법적 추론, 예측, 온라인 괴롭힘 등)에서 적응형으로 탐색했을 때 최첨단 모델들이 일관성이 부족하다는 것을 발견했다. 생성된 질문은 사람의 유효성 검사를 통과하고, 종종 다른 기능 프로필을 가진 다른 모델에도 적용되어 적응형 평가를 사용하여 어려운 도메인별 데이터셋을 생성할 수 있음을 보여준다.