본 논문은 대규모 언어 모델(LLM)이 생성한 한국어 텍스트를 탐지하기 위한 새로운 벤치마크 데이터셋 KatFish와 탐지 모델 KatFishNet을 제안합니다. 기존 연구들이 주로 영어에 집중한 것과 달리, 한국어의 고유한 형태소 분석 및 구문 구조적 특징을 고려하여 개발되었습니다. KatFish 데이터셋은 인간이 작성한 텍스트와 4개의 LLM이 생성한 텍스트를 포함하며, 세 가지 장르를 다룹니다. 논문에서는 공백 패턴, 품사 다양성, 쉼표 사용 등의 언어적 차이를 분석하여 KatFishNet 모델을 설계하였고, 기존 최고 성능 모델보다 평균 19.78% 높은 AUROC를 달성했습니다. 소스 코드와 데이터는 공개적으로 제공됩니다.