본 논문은 Codeforces의 경쟁 프로그래밍 과제를 활용하여 ChatGPT 03-mini와 DeepSeek-R1 두 대표적인 대규모 언어 모델(LLM)의 AI 지원 프로그래밍 도구로서의 성능을 평가한 연구입니다. 난이도별(쉬움, 중간, 어려움) 29개의 프로그래밍 과제를 통해 정답률, 메모리 효율성, 실행 시간 성능을 측정하였습니다. 결과적으로, 두 모델 모두 쉬운 과제에서는 유사한 성능을 보였으나, 중간 난이도 과제에서는 ChatGPT가 DeepSeek-R1보다 월등히 높은 성공률(54.5% vs 18.1%)을 기록했습니다. 반면, 어려운 과제에서는 두 모델 모두 어려움을 겪어, 복잡한 프로그래밍 문제 해결에 있어 LLM이 여전히 직면한 과제를 보여주었습니다.