본 논문은 대규모 언어 모델(LLM)의 성능 평가 과정에서 발생하는 높은 비용과 시간 소모 문제를 해결하기 위해, 능동 테스트 프레임워크인 AcTracer를 제안합니다. 기존의 능동 테스트 방법들이 LLM의 다양한 작업 유형, 복잡성 증가, 훈련 데이터 부재 등의 문제에 효율적이지 못하다는 점을 지적하며, AcTracer는 LLM의 내부 및 외부 정보를 활용하여 다단계 풀 기반 능동 선택을 통해 테스트 데이터의 작은 부분집합을 전략적으로 선택하여 LLM의 성능을 더 정확하게 추정합니다. 실험 결과, AcTracer는 다양한 작업에서 기존 방법보다 우수한 성능을 달성함을 보여줍니다.