본 논문은 기존 언어 모델 평가의 한계를 극복하기 위해, 모델의 행동을 분석하는 새로운 평가 방법인 'task elicitation'을 제안합니다. 이 방법을 통해 기존 연구보다 훨씬 많은(10배 이상) 자연어 작업을 자동으로 생성하여 최첨단 언어 모델의 체계적인 오류를 다양한 영역(예측, 온라인 괴롭힘 등)에서 발견합니다. 예를 들어, Sonnet 3.5의 양자 컴퓨팅과 AGI 과도한 연관성, o3-mini의 반복적인 허구 정보에 대한 환각 현상 등을 발견합니다.