Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models

Created by
  • Haebom
Category
Empty

저자

Jingxuan Xu, Ken Deng, Weihao Li, Songwei Yu, Huaixi Tang, Haoyang Huang, Zhiyi Lai, Zizheng Zhan, Yanan Wu, Chenchen Zhang, Kepeng Lei, Yifan Yao, Xinping Lei, Wenqiang Zhu, Zongxian Feng, Han Li, Junqi Xiong, Dailin Li, Zuchen Gao, Kun Wu, Wen Xiang, Ziqi Zhan, Yuanxing Zhang, Wuxuan Gong, Ziyuan Gao, Guanxiang Wang, Yirong Xue, Xiaojiang Zhang, Jinghui Wang, Huiming Wang, Wenhao Zhuang, Zhaoxiang Zhang, Yuqun Zhang, Haotian Zhang, Bin Chen, Jiaheng Liu

개요

SWE-Compass1은 소프트웨어 공학 분야의 대규모 언어 모델(LLM) 평가의 한계를 극복하기 위해 개발된 포괄적인 벤치마크입니다. 기존 벤치마크의 좁은 작업 범위, 언어 편향성, 실제 개발자 워크플로우와의 불일치를 해결하고자, SWE-Compass는 8가지 작업 유형, 8가지 프로그래밍 시나리오, 10가지 프로그래밍 언어를 포괄하며, 실제 GitHub 풀 리퀘스트에서 얻은 2000개의 고품질 인스턴스를 활용합니다. 10개의 최첨단 LLM을 두 개의 에이전트 프레임워크(SWE-Agent, Claude Code) 하에서 벤치마킹하여 작업 유형, 언어, 시나리오별 난이도 계층을 파악했습니다.

시사점, 한계점

시사점:
SWE-Compass는 실제 개발자 환경에 가깝게 설계되어 LLM의 실용적인 코딩 능력을 평가합니다.
다양한 작업 유형, 언어 및 시나리오를 포함하여 LLM의 광범위한 평가를 가능하게 합니다.
SWE-Agent 및 Claude Code와 같은 에이전트 프레임워크를 활용하여 에이전트 기반 코딩 능력을 평가합니다.
평가 결과는 LLM의 강점과 약점을 파악하고, 에이전트 기반 코딩 능력을 개선하는 데 기여합니다.
한계점:
구체적인 한계점은 논문 내용에 명시되지 않았습니다.
👍