본 논문은 GPT-4와 Gemini 2.0 Flash 두 가지 대규모 언어 모델(LLM)의 코드 검토 성능을 비교 분석한 연구입니다. 492개의 AI 생성 코드 블록과 164개의 HumanEval 벤치마크 코드 블록을 사용하여 코드 정확성 검출 및 개선 제안 능력을 평가했습니다. 실험 결과, 문제 설명이 제공될 경우 GPT-4와 Gemini 2.0 Flash는 각각 68.50%와 63.89%의 정확도로 코드의 정확성을 분류하고, 492개의 AI 생성 코드 블록에 대해 각각 67.83%와 54.26%의 비율로 코드를 수정했습니다. 문제 설명 없이 수행한 경우 성능이 저하되었으며, HumanEval 벤치마크 코드에서는 다른 결과를 보여 코드 유형에 따라 성능이 달라짐을 시사했습니다. 결론적으로 LLM을 활용한 코드 검토는 코드 개선 및 정확성 평가에 도움이 될 수 있지만, 잘못된 결과를 산출할 위험성도 존재하므로, 'Human in the loop LLM Code Review' 와 같은 인간의 개입을 포함하는 프로세스를 제안합니다.