Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity?

Created by
  • Haebom
Category
Empty

저자

Pierre Chambon, Baptiste Roziere, Benoit Sagot, Gabriel Synnaeve

개요

BigO(Bench)는 생성형 언어 모델의 시간 및 공간 복잡도를 고려한 코드 이해 및 생성 능력을 평가하기 위해 고안된 새로운 코딩 벤치마크입니다. 기존 평가에서 종종 간과되었던 계산 복잡도 제약 조건 하에서의 코드 이해 및 생성 능력을 평가하는 데 중점을 둡니다. Python 함수의 알고리즘 복잡도를 프로파일링 측정값으로부터 추론하는 도구를 포함하며, 3,105개의 코딩 문제와 1,190,250개의 솔루션(코드 콘테스트에서 수집, 시간 및 공간 복잡도 레이블이 부여됨) 및 다양한 입력 크기에 대한 실행 시간 및 메모리 사용량 값으로 구성됩니다. 여러 최첨단 언어 모델을 이 벤치마크로 평가한 결과를 제시하여 복잡도 요구 사항 처리 능력의 강점과 약점을 강조합니다. 특히, 토큰 공간 추론 모델은 코드 생성에서는 탁월하지만 복잡도 이해에는 그렇지 못하며, 훈련 시 보상을 받지 못한 작업에는 일반화가 잘 되지 않을 수 있음을 시사합니다.

시사점, 한계점

시사점: 생성형 언어 모델의 코드 생성 능력 평가에 있어 시간 및 공간 복잡도 고려의 중요성을 강조합니다. BigO(Bench)는 모델의 복잡도 이해 및 생성 능력을 정량적으로 평가할 수 있는 새로운 벤치마크를 제공합니다. 토큰 공간 추론 모델의 강점과 약점을 명확히 보여주어 향후 모델 개발 방향을 제시합니다.
한계점: 현재는 Python에 국한된 벤치마크입니다. 다른 프로그래밍 언어에 대한 확장이 필요합니다. 추론된 복잡도 레이블의 정확성에 대한 추가적인 검증이 필요할 수 있습니다. 벤치마크에 포함된 문제의 다양성 및 대표성에 대한 추가적인 분석이 필요할 수 있습니다.
👍