Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating the Limitations of Local LLMs in Solving Complex Programming Challenges

Created by
  • Haebom

저자

Kadin Matotek, Heather Cassel, Md Amiruzzaman, Linh B. Ngo

개요

본 연구는 복잡한 경쟁 프로그래밍 문제에 대한 오픈소스, 로컬 호스팅 대규모 언어 모델(LLM)의 성능을 평가합니다. 기존의 AI 기반 코드 생성 평가 프레임워크(FACE)를 기반으로, Ollama 런타임을 통해 오프라인에서 작동하도록 파이프라인을 수정하고, Kattis의 3,589개 문제에 대해 8개의 코드 지향 모델(6.7~90억 파라미터)을 평가했습니다. 제출 결과, 로컬 모델의 전반적인 pass@1 정확도는 상대적으로 낮았으며, 최고 성능 모델도 Gemini 1.5 및 ChatGPT-4와 같은 독점 모델의 절반 수준의 정확도를 보였습니다.

시사점, 한계점

시사점:
오픈소스 LLM의 경쟁 프로그래밍 문제 해결 능력에 대한 실증적 분석을 제공합니다.
독점 모델과 오픈소스 모델 간의 성능 격차를 명확히 보여줍니다.
기업이 자체 하드웨어에서 복제할 수 있는 평가 워크플로우의 실용성을 강조합니다.
오픈소스 모델의 빠른 발전을 보여줍니다.
한계점:
평가에 사용된 오픈소스 모델의 성능이 독점 모델에 비해 상대적으로 낮았습니다.
평가에 사용된 Kattis 문제집의 특성이 모든 종류의 경쟁 프로그래밍 문제를 완벽히 대표하지 못할 수 있습니다.
더욱 다양한 모델과 문제 유형을 포함한 추가 연구가 필요합니다.
👍