다국어 LLM에서 영어 데이터만 사용하여 다국어 지식을 지우는 시도가 불충분하다는 기존 연구의 한계를 지적하고, 완전한 미세 조정 후 모델에서 나타나는 언어 혼란 현상에 주목합니다. 언어 혼란은 입력 프롬프트와 다른 언어로 응답하는 문제로, 기존 참조 기반 메트릭의 실패를 야기합니다. 본 연구는 N-gram 기반 N-Mix 점수를 도입하여 언어 혼란의 심각성을 정량적으로 보여주고, 참조 기반 메트릭의 오류를 입증하며, 생성된 문장의 내용 자체를 평가하는 새로운 형태의 의미 기반 메트릭의 필요성을 제안합니다.