Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning

Created by
  • Haebom

저자

Monoshi Kumar Roy, Simin Chen, Benjamin Steenhoek, Jinjun Peng, Gail Kaiser, Baishakhi Ray, Wei Le

개요

CodeSense는 실제 소프트웨어 엔지니어링(SE) 맥락에서 대규모 언어 모델(LLM)의 코드 추론 능력을 평가하기 위한 새로운 벤치마크입니다. 기존 벤치마크들이 주로 합성 데이터셋이나 교육용 코딩 문제에 의존하고, 입출력 예측과 같은 조악한 추론 작업에 초점을 맞춘 것과 달리, CodeSense는 실제 저장소에서 수집한 Python, C, Java 프로젝트를 기반으로 하여 세분화된 코드 추론 작업을 다룹니다. 실제 코드의 실행 추적을 수집하여 정답 데이터셋을 구성하고, 최첨단 LLM을 포괄적으로 평가하여 모델의 세분화된 추론 작업 처리 능력에 대한 성능 격차를 보여줍니다. 또한, 세분화된 SE 추론 작업에 대한 정답을 쉽게 수집할 수 있는 실행 추적 프레임워크와 도구 세트를 제공하여 향후 벤치마크 구축 및 모델 재훈련의 기반을 마련합니다.

시사점, 한계점

시사점:
실제 세계의 소프트웨어 엔지니어링 작업에 초점을 맞춘, 세분화된 코드 추론 작업을 위한 최초의 벤치마크 제공.
최첨단 LLM의 세분화된 코드 추론 능력에 대한 성능 격차를 명확히 제시.
세분화된 SE 추론 작업을 위한 정답 데이터 수집을 용이하게 하는 실행 추적 프레임워크 및 도구 세트 제공.
향후 벤치마크 구축 및 모델 재훈련을 위한 강력한 기반 마련.
한계점:
현재 Python, C, Java 언어만 지원.
LLM의 코드 의미론 부족이 코드 추론 능력을 근본적으로 제한하는 것으로 나타남. (Chain-of-thought 및 In-context learning과 같은 프롬프트 기법이 도움이 되지만, 근본적인 한계를 극복하지는 못함).
👍