본 논문은 대규모 언어 모델(LLM)이 생성한 한국어 텍스트를 검출하는 방법에 대한 연구를 다룹니다. 영어 중심의 기존 연구와 달리, 한국어의 특징(유연한 공백 규칙, 풍부한 형태소 시스템, 낮은 쉼표 사용 빈도)을 고려하여 새로운 벤치마크 데이터셋 KatFish와 검출 모델 KatFishNet을 제시합니다. KatFish는 인간이 작성한 텍스트와 네 개의 LLM이 세 가지 장르에서 생성한 텍스트로 구성되며, KatFishNet은 기존 최고 성능 모델보다 평균 19.78% 높은 AUROC를 달성합니다. 공백 패턴, 품사 다양성, 쉼표 사용 등의 언어적 차이를 분석하여 모델을 개발하였으며, 코드와 데이터는 공개적으로 제공합니다.