Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LongCodeBench: Evaluating Coding LLMs at 1M Context Windows

Created by
  • Haebom

저자

Stefano Rando, Luca Romani, Alessio Sampieri, Luca Franco, John Yang, Yuta Kyuragi, Fabio Galasso, Tatsunori Hashimoto

개요

본 논문은 최근 급증하는 장문맥 모델(Long-context models)의 성능 평가를 위한 새로운 벤치마크인 LongCodeBench (LCB)를 제안합니다. LCB는 실제 GitHub 이슈에서 추출한 코드 이해 및 수정 문제를 바탕으로, 장문맥 상황에서의 LLM 코딩 능력을 평가합니다. LongCodeQA (코드 이해를 위한 질의응답)와 LongSWE-Bench (버그 수정) 두 가지 과제로 구성되며, Qwen2.5 14B Instruct부터 Google Gemini까지 다양한 모델의 성능을 다양한 난이도로 평가합니다. 실험 결과, 모든 모델에서 장문맥 처리 능력이 부족하며, 모델에 따라 성능 저하가 크게 나타나는 것을 확인했습니다 (예: Claude 3.5 Sonnet은 29%에서 3%로, Qwen2.5는 70.2%에서 40%로 성능 저하). 기존 벤치마크의 한계를 극복하고, 실제적인 장문맥 문제 해결 능력을 평가하는 데 초점을 맞추고 있습니다.

시사점, 한계점

시사점:
실제적인 장문맥 문제 해결 능력 평가를 위한 새로운 벤치마크 (LCB) 제시
장문맥 처리 능력이 현재 LLM의 주요 약점임을 실험적으로 증명
다양한 규모의 LLM 모델에 대한 성능 비교 분석 제공
코드 이해 및 수정 분야에서 장문맥 모델의 발전 방향 제시
한계점:
GitHub 이슈 데이터에 기반한 벤치마크이므로, 데이터 편향 가능성 존재
벤치마크의 범위가 코드 이해 및 수정에 국한됨
장문맥 처리 성능 저하의 원인에 대한 심층적인 분석 부족
👍