Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LongCodeBench: Evaluating Coding LLMs at 1M Context Windows

Created by
  • Haebom

저자

Stefano Rando, Luca Romani, Alessio Sampieri, Luca Franco, John Yang, Yuta Kyuragi, Fabio Galasso, Tatsunori Hashimoto

개요

본 논문은 대규모 컨텍스트를 처리하는 언어 모델(LLM)의 코딩 능력을 평가하기 위한 벤치마크인 LongCodeBench (LCB)를 소개합니다. LCB는 실제 GitHub 이슈를 기반으로 질문 답변(QA) 및 버그 수정(bug fixing) 과제를 포함하며, 다양한 모델의 성능을 평가합니다. 실험 결과, 모든 모델에서 long-context 능력이 약점으로 나타났습니다.

시사점, 한계점

시사점:
long-context LLM의 코딩 능력을 평가하기 위한 현실적인 벤치마크를 제공합니다.
QA 및 버그 수정 과제를 통해 모델의 이해력과 수정 능력을 평가합니다.
다양한 모델의 성능을 비교 분석하여 long-context의 어려움을 보여줍니다.
LCB 데이터셋과 코드베이스를 공개하여 연구의 재현 및 확장을 용이하게 합니다.
한계점:
long-context를 사용하는 다른 분야에 대한 평가는 이루어지지 않았습니다.
제시된 모델 외 다른 모델에 대한 추가적인 분석이 필요합니다.
👍