본 논문은 대규모 언어 모델(LLM)의 컴퓨터 과학 분야 특화된 평가를 위해 브라질 컴퓨터 학회(SBC)가 주관하는 대학원 입시 시험인 POSCOMP를 활용하여 LLM의 성능을 평가했습니다. ChatGPT-4, Gemini 1.0 Advanced, Claude 3 Sonnet, Le Chat Mistral Large 등 4개의 LLM을 2022년과 2023년 POSCOMP 시험에 적용하여 평가하였으며, LLM은 특히 텍스트 기반 문제에서 높은 정답률을 보였습니다. ChatGPT-4가 가장 높은 성적을 기록했으며, 2023년 시험에서는 모든 응시생을 능가하는 성적을 거두었습니다. 추가적으로 o1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3-mini-high 모델을 2022년부터 2024년 시험에 적용하여 평가한 결과, 최신 모델들은 이전 모델들보다 성능이 향상되었으며, 3년간의 시험에서 평균 및 최고 성적을 기록한 인간 참가자들을 모두 능가하는 결과를 보였습니다. 이미지 해석 문제에서는 여전히 어려움을 보였습니다.