Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On the Limitations of Language Targeted Pruning: Investigating the Calibration Language Impact in Multilingual LLM Pruning

Created by
  • Haebom
Category
Empty

저자

Simon Kurz, Jian-Jia Chen, Lucie Flek, Zhixue Zhao

개요

대규모 언어 모델(LLM) 가지치기의 최근 발전은 고품질의 예측 성능을 유지하면서 사후 훈련 및 재훈련 없이 최첨단 압축 결과를 보여주었습니다. 그러나 이전 연구는 주로 영어 텍스트를 기반으로 보정을 고려했으나, 현대 LLM의 다국어적 특성과 비영어권 언어에서의 빈번한 사용을 간과했습니다. 본 분석 논문은 단일 언어 애플리케이션을 위해 다국어 언어 모델을 가지치기 할 때의 성능 및 내부 표현 변화에 대한 심층적인 연구를 수행합니다. 우리는 다양한 언어, 작업, 모델 및 최첨단 가지치기 기법에 걸쳐 다국어 모델 가지치기를 위한 다양한 보정 언어를 비교하는 최초의 포괄적인 실증 연구를 제시합니다. 또한, 가지치기된 모델 내의 잠재 공간, 가지치기 마스크 및 개별 뉴런을 분석합니다.

시사점, 한계점

대상 언어에 대한 보정은 혼란도를 효과적으로 유지하고 높은 신호 대 잡음비를 얻지만, 다운스트림 작업 성능을 일관되게 향상시키지는 못합니다.
세 가지 다른 수준에서의 내부 표현 분석은 현재의 가지치기 접근 방식의 더 광범위한 한계를 강조합니다: 언어별 특징과 같은 지배적인 정보를 효과적으로 보존하지만, 지식 유지 및 추론에 중요한 미묘하고 언어에 독립적인 특징의 손실을 상쇄하기에는 충분하지 않습니다.
👍