Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance

Created by
  • Haebom
Category
Empty

저자

Myeongsoo Kim, Shweta Garg, Baishakhi Ray, Varun Kumar, Anoop Deoras

개요

대규모 언어 모델 기반 프로그래밍 어시스턴트의 발전에도 불구하고, 기존 벤치마크는 좁은 코드 생성 환경에서만 평가된다. CodeAssistBench (CAB)는 다중 턴, 프로젝트 기반 프로그래밍 지원을 대규모로 평가하기 위한 최초의 벤치마크이다. CAB는 질문으로 태그된 GitHub issue로부터 자동으로 데이터를 구성하며, LLM 기반 파이프라인을 사용하여 노이즈를 필터링하고, 실행 가능한 컨텍스트를 추출하며, 실행 가능한 컨테이너를 구축하고, 환경의 정확성을 검증한다. 이를 통해 수동 개입 없이 다양한 레포지토리에 걸쳐 지속적이고 자동화된 확장이 가능하다. CAB를 사용하여 7개 언어, 214개의 레포지토리에서 3,286개의 실제 issue를 테스트베드로 구축했다. 최첨단 모델을 평가한 결과, Stack Overflow 스타일의 질문에서 70-83%의 정확도를 보이는 모델들이 post-training-cutoff 레포지토리의 CAB issue에서는 16.49%만 해결하는 등 상당한 격차를 보였다. 수동으로 검증된 149개의 issue에서 Claude Sonnet 4.5와 같은 최고 모델은 12.08%의 정확도만 기록했다. CAB는 실제 프로젝트 특정 컨텍스트에서 지원하는 데 어려움을 겪는 현재 LLM의 근본적인 문제점을 강조하며, 다중 턴, 코드베이스 기반 프로그래밍 에이전트 연구를 발전시키기 위한 확장 가능하고 재현 가능한 프레임워크를 제공한다.

시사점, 한계점

시사점:
현존하는 LLM 기반 프로그래밍 어시스턴트는 좁은 범위의 코드 생성 문제에서는 높은 성능을 보이지만, 실제 프로젝트 환경에서는 성능이 크게 떨어진다.
CAB는 실제 GitHub issue를 기반으로 한 대규모 벤치마크를 제공하여 다중 턴, 프로젝트 기반 프로그래밍 지원의 평가를 위한 새로운 기준을 제시한다.
CAB를 통해 얻은 결과는 현재 LLM이 실제 개발 환경에서 겪는 어려움을 명확히 보여주며, 연구 방향을 제시한다.
CAB는 자동화된 파이프라인을 통해 지속적으로 확장 가능하며, 연구의 재현성을 높인다.
한계점:
수동 검증된 subset에서의 낮은 정확도는 모델 개선의 필요성을 보여준다.
모델 성능 향상을 위한 추가적인 연구와 벤치마크 개선이 필요하다.
특정 언어, 프로젝트 유형 또는 issue 유형에 대한 편향이 존재할 수 있다.
👍