본 논문은 YouTube의 고악성 댓글(게임, 라이프스타일, 음식 브이로그, 음악 채널) 5,080개를 대상으로 OpenAI GPT-4.1, Google Gemini 1.5 Pro, Anthropic Claude 3 Opus 세 가지 주요 대규모 언어 모델의 온라인 댓글 악성 여부 판별 성능을 벤치마킹한 연구입니다. 영어, 아랍어, 인도네시아어로 구성된 데이터셋(악성 1,334개, 비악성 3,746개)을 두 명의 검토자가 독립적으로 주석을 달았으며(Cohen's kappa = 0.83), 통일된 프롬프트와 결정적 설정을 사용하여 모델 성능을 평가했습니다. GPT-4.1이 F1 score 0.863, 정밀도 0.887, 재현율 0.841로 가장 균형 잡힌 성능을 보였으며, Gemini는 가장 높은 재현율(0.875)을 기록했지만 정밀도(0.767)가 낮았습니다. Claude는 가장 높은 정밀도(0.920)와 가장 낮은 오탐율(0.022)을 보였지만 재현율(0.720)이 낮았습니다. 모델들은 모두 풍자, 암시적 모욕, 혼합 언어 속어에 어려움을 보였으며, 데이터셋과 프롬프트를 공개하여 재현성을 높이고 자동화된 콘텐츠 조정 연구를 촉진하고자 합니다.