Sign In

Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol

Created by
  • Haebom
Category
Empty

저자

Roham Koohestani, Philippe de Bekker, Maliheh Izadi

개요

본 논문은 AI 기반 소프트웨어 공학(AI4SE) 분야의 벤치마크 연구를 종합적으로 검토하고, 벤치마크 검색 도구인 BenchScout와 벤치마크 개발 표준화 방법인 BenchFrame을 제시한다. 173편의 연구 논문과 204개의 AI4SE 벤치마크를 분석하여 기존 벤치마크의 산발적인 정보, 관련 벤치마크 선택의 어려움, 벤치마크 개발 표준 부재, 기존 벤치마크의 한계 등의 문제점을 지적한다. BenchScout는 자동 클러스터링 기반의 의미 기반 검색을 통해 관련 벤치마크를 찾도록 지원하며, 사용자 연구를 통해 효용성을 검증하였다. BenchFrame은 벤치마크 품질 향상을 위한 통합적 방법론으로, HumanEval 벤치마크 개선 사례(HumanEvalNext)를 통해 그 효과를 보여준다. HumanEvalNext에서는 기존 모델들의 성능이 감소하는 것을 확인하여 벤치마크 개선의 중요성을 강조한다.

시사점, 한계점

시사점:
AI4SE 분야 벤치마크의 체계적인 분석 및 분류 제공
의미 기반 벤치마크 검색 도구(BenchScout) 개발 및 효용성 검증
벤치마크 개발 표준화 방법론(BenchFrame) 제시 및 실제 적용 사례 제시
벤치마크 개선을 통한 AI 모델 평가의 신뢰성 향상
벤치마크의 품질 향상을 통해 AI4SE 연구의 발전에 기여
한계점:
BenchScout 및 BenchFrame의 장기적인 유지보수 및 관리 방안 필요
분석 대상 벤치마크의 포괄성에 대한 추가적인 검토 필요
BenchFrame의 적용 범위 및 일반화 가능성에 대한 추가적인 연구 필요
HumanEvalNext를 포함한 새로운 벤치마크의 지속적인 업데이트 및 관리 필요
분석에 포함된 연구의 편향성 및 제한점에 대한 고찰 필요
👍