본 논문은 대규모 언어 모델(LLM)의 지식 편집 과정에서 발생할 수 있는 악의적인 오용을 방지하기 위한 새로운 과제인 지식 편집 유형 식별(KETI)을 제안합니다. LLM에 대한 악의적인 수정은 유해한 콘텐츠 생성이나 사용자의 부적절한 행동 유도로 이어질 수 있기 때문에, 이를 식별하여 사용자에게 알리는 것이 중요합니다. 이를 위해 다양한 유형의 유해한 편집을 포함하는 KETIBench 데이터셋을 구축하고, 다양한 분류 모델(전통적 모델 5개, BERT 기반 모델 3개)을 이용하여 악의적인 편집을 식별하는 실험을 진행했습니다. 실험 결과, 모든 모델이 상당한 식별 성능을 보였으며, 지식 편집 방법의 신뢰성과 관계없이, 그리고 도메인 간 일반화 성능도 확인되었습니다. GitHub에 데이터 및 코드를 공개했습니다.