Sign In

Uncovering the Potential Risks in Unlearning: Danger of English-only Unlearning in Multilingual LLMs

Created by
  • Haebom
Category
Empty

저자

Kyomin Hwang, Hyeonjin Kim, Seungyeon Kim, Sunghyun Wee, Nojun Kwak

개요

다국어 LLM에서 영어 데이터만 사용하여 다국어 지식을 지우는 시도가 불충분하다는 기존 연구의 한계를 지적하고, 완전한 미세 조정 후 모델에서 나타나는 언어 혼란 현상에 주목합니다. 언어 혼란은 입력 프롬프트와 다른 언어로 응답하는 문제로, 기존 참조 기반 메트릭의 실패를 야기합니다. 본 연구는 N-gram 기반 N-Mix 점수를 도입하여 언어 혼란의 심각성을 정량적으로 보여주고, 참조 기반 메트릭의 오류를 입증하며, 생성된 문장의 내용 자체를 평가하는 새로운 형태의 의미 기반 메트릭의 필요성을 제안합니다.

시사점, 한계점

시사점:
다국어 LLM의 지식 삭제 시 언어 혼란 현상의 중요성 강조.
언어 혼란 현상을 정량화하는 N-Mix 점수 도입.
기존 참조 기반 메트릭의 한계 지적 및 새로운 평가 방법론(의미 기반 메트릭)의 필요성 제시.
한계점:
구체적인 의미 기반 메트릭의 구현 및 실험 결과는 제시되지 않음.
언어 혼란을 해결하기 위한 구체적인 방법론 제시 부족.
👍