Sign In

FaithUn: Toward Faithful Forgetting in Language Models by Investigating the Interconnectedness of Knowledge

Created by
  • Haebom
Category
Empty

저자

Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung

개요

본 논문은 언어 모델에서 민감하거나 개인적인 지식을 제거하는 기존 연구들이 지식의 복잡한 상호 연결성을 간과하고, 제거해야 할 관련 지식을 제대로 제거하지 못하거나, 관련이 있지만 다른 맥락의 지식까지 의도치 않게 제거하는 "피상적 언러닝" 현상을 해결하고자 한다. 이를 위해 새로운 벤치마크 FaithUn을 제시하고, 지식 관련 뉴런만을 업데이트하는 새로운 언러닝 방법 KLUE를 제안한다. KLUE는 설명 가능성 기법을 사용하여 지식 뉴런을 식별하고, 선택된 잊혀지지 않은 샘플을 사용하여 해당 뉴런만을 업데이트한다.

시사점, 한계점

시사점:
언어 모델에서 지식 제거의 신뢰성을 평가하기 위한 새로운 벤치마크 FaithUn 제시.
피상적 언러닝 개념 정의 및 기존 언러닝 방법의 한계점 지적.
지식 관련 뉴런만을 업데이트하는 효율적인 언러닝 방법 KLUE 제안.
실제 질문 응답(QA) 환경에서 KLUE의 우수한 성능 입증.
한계점:
다른 언어 모델 및 다양한 데이터셋에 대한 KLUE의 일반화 가능성 추가 검증 필요.
지식 뉴런 식별 및 업데이트 과정에서 발생하는 계산 비용 고려 필요.
FaithUn 벤치마크의 확장성 및 현실 세계 문제 적용에 대한 추가 연구 필요.
👍