Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Unified Approach for Elevating Benchmark Quality

Created by
  • Haebom

저자

Roham Koohestani, Philippe de Bekker, Begum Ko\c{c}, Maliheh Izadi

개요

AI for Software Engineering (AI4SE) 분야의 급증하는 벤치마크로 인해 발생한 문제점 (단편적인 지식, 관련 벤치마크 선택의 어려움, 벤치마크 생성의 표준화 부족, 유용성을 제한하는 결함)을 해결하기 위해, 기존 벤치마크를 체계적으로 매핑하고 견고하고 적응 가능한 벤치마크 개발을 위한 통합 지침을 정의하는 이중 접근 방식을 제시한다. 273개의 AI4SE 벤치마크를 분석하고, 247개의 연구를 검토하여 BenchScout이라는 확장 가능한 시맨틱 검색 도구를 개발하여 적합한 벤치마크를 찾도록 돕는다. 또한, 벤치마크 품질 향상을 위한 통합 프레임워크인 BenchFrame을 제안하고, 이를 HumanEval에 적용하여 HumanEvalNext를 생성했다.

시사점, 한계점

시사점:
AI4SE 벤치마크의 체계적인 분류 및 분석을 통해 지식의 단편성을 해결하고, 관련 벤치마크 선택을 돕는 BenchScout 개발.
벤치마크 품질 향상을 위한 BenchFrame 제안 및 HumanEvalNext 생성, 벤치마크의 지속적인 개선 필요성을 강조.
BenchScout의 사용자 연구를 통한 유용성 및 효과 입증.
HumanEval, HumanEvalPlus, HumanEvalNext를 통한 최첨단 코드 모델 평가, 벤치마크의 난이도와 정확성 향상 효과 확인.
Agentic pipeline을 통한 BenchFrame의 확장성 확인 및 MBPP 데이터셋에서의 일반화.
모든 데이터, 연구 자료 및 향상된 벤치마크의 공개를 통한 연구의 재현성 확보.
한계점:
273개의 벤치마크 분석이 모든 AI4SE 벤치마크를 포괄하는지 여부에 대한 불확실성.
BenchScout의 성능이 다른 검색 도구에 비해 얼마나 뛰어난지에 대한 추가적인 비교 분석의 부재.
BenchFrame의 일반화 가능성을 MBPP 데이터셋 외 다른 데이터셋에 대해 추가 검증 필요.
제안된 벤치마크 개선 방법론의 장기적인 효과와 지속적인 개선을 위한 메커니즘에 대한 추가 연구 필요.
👍