본 연구는 복잡한 경쟁 프로그래밍 문제에 대한 오픈소스, 로컬 호스팅 대규모 언어 모델(LLM)의 성능을 평가합니다. 기존의 AI 기반 코드 생성 평가 프레임워크(FACE)를 기반으로, Ollama 런타임을 통해 오프라인에서 작동하도록 파이프라인을 수정하고, Kattis의 3,589개 문제에 대해 8개의 코드 지향 모델(6.7~90억 파라미터)을 평가했습니다. 제출 결과, 로컬 모델의 전반적인 pass@1 정확도는 상대적으로 낮았으며, 최고 성능 모델도 Gemini 1.5 및 ChatGPT-4와 같은 독점 모델의 절반 수준의 정확도를 보였습니다.