HawkBench는 실제 정보 검색 시나리오에서 사용자의 동적이고 다양한 요구를 충족하기 위해 RAG 시스템의 적응력 있는 탄력성을 평가하기 위한 새로운 벤치마크입니다. 기존 벤치마크가 특정 유형의 작업(주로 사실적 질문)과 다양한 지식 기반에 중점을 둔 것과 달리, HawkBench는 사실적 질문과 근거 질문을 포함한 광범위한 질문 유형을 체계적으로 분류하고, 모든 작업 유형에서 다중 도메인 코퍼스를 통합하여 코퍼스 편향을 완화하며, 고품질 평가를 위한 엄격한 주석을 제공합니다. 1,600개의 고품질 테스트 샘플을 포함하며, 도메인과 작업 유형에 따라 고르게 분포되어 있습니다. 대표적인 RAG 방법을 평가하여 답변 품질과 응답 대기 시간 측면에서 성능을 분석하고, RAG의 일반화를 개선하기 위해 의사 결정, 질의 해석 및 전반적인 지식 이해를 통합하는 동적 작업 전략의 필요성을 강조합니다.