Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Identifying Knowledge Editing Types in Large Language Models

Created by
  • Haebom

저자

Xiaopeng Li, Shasha Li, Shangwen Wang, Shezheng Song, Bin Ji, Huijun Liu, Jun Ma, Jie Yu

개요

본 논문은 대규모 언어 모델(LLM)의 지식 편집 과정에서 발생할 수 있는 악의적인 오용을 방지하기 위한 새로운 과제인 지식 편집 유형 식별(KETI)을 제안합니다. LLM에 대한 악의적인 수정은 유해한 콘텐츠 생성이나 사용자의 부적절한 행동 유도로 이어질 수 있기 때문에, 이를 식별하여 사용자에게 알리는 것이 중요합니다. 이를 위해 다양한 유형의 유해한 편집을 포함하는 KETIBench 데이터셋을 구축하고, 다양한 분류 모델(전통적 모델 5개, BERT 기반 모델 3개)을 이용하여 악의적인 편집을 식별하는 실험을 진행했습니다. 실험 결과, 모든 모델이 상당한 식별 성능을 보였으며, 지식 편집 방법의 신뢰성과 관계없이, 그리고 도메인 간 일반화 성능도 확인되었습니다. GitHub에 데이터 및 코드를 공개했습니다.

시사점, 한계점

시사점:
LLM의 지식 편집 과정에서의 악의적 오용 방지에 대한 새로운 접근법 제시
KETIBench 데이터셋을 통한 유해한 지식 편집 유형 식별 연구의 기반 마련
다양한 모델의 실험을 통한 악의적 편집 식별의 실현 가능성 확인
도메인 간 일반화 성능 확인으로 범용성 증명
오픈소스 데이터 및 코드 공개를 통한 연구의 재현성 및 확장성 확보
한계점:
KETIBench 데이터셋의 유해한 편집 유형의 포괄성에 대한 추가적인 검토 필요
실제 악의적 공격 시나리오에 대한 추가적인 연구 필요
다양한 LLM 아키텍처 및 크기에 대한 일반화 성능 검증 필요
악의적 편집의 정교함이 증가함에 따라 식별 성능 저하 가능성 고려 필요
👍