본 논문은 AI 기반 소프트웨어 공학(AI4SE) 분야의 벤치마크 연구를 종합적으로 검토하고, 벤치마크 검색 도구인 BenchScout와 벤치마크 개발 표준화 방법인 BenchFrame을 제시한다. 173편의 연구 논문과 204개의 AI4SE 벤치마크를 분석하여 기존 벤치마크의 산발적인 정보, 관련 벤치마크 선택의 어려움, 벤치마크 개발 표준 부재, 기존 벤치마크의 한계 등의 문제점을 지적한다. BenchScout는 자동 클러스터링 기반의 의미 기반 검색을 통해 관련 벤치마크를 찾도록 지원하며, 사용자 연구를 통해 효용성을 검증하였다. BenchFrame은 벤치마크 품질 향상을 위한 통합적 방법론으로, HumanEval 벤치마크 개선 사례(HumanEvalNext)를 통해 그 효과를 보여준다. HumanEvalNext에서는 기존 모델들의 성능이 감소하는 것을 확인하여 벤치마크 개선의 중요성을 강조한다.