Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LayerIF: Estimating Layer Quality for Large Language Models using Influence Functions

Created by
  • Haebom

저자

Hadi Askari, Shivanshu Gupta, Fei Wang, Anshuman Chhabra, Muhao Chen

개요

본 논문은 사전 훈련된 거대 언어 모델(LLM)의 각 계층별 훈련 품질을 평가하는 새로운 프레임워크인 LayerIF를 제안합니다. 기존의 모델 중심적 방법론과 달리, LayerIF는 영향 함수(Influence Functions)를 활용하여 각 계층의 기울기를 격리하고 검증 손실에 대한 훈련 데이터의 민감도를 측정함으로써 데이터 중심적인 방식으로 계층의 중요도를 정량화합니다. 이를 통해 동일한 LLM에서도 서로 다른 평가 과제에 따라 계층의 특화 정도를 보여주는 과제별 계층 중요도 추정치를 생성합니다. LayerIF의 유용성을 검증하기 위해 LoRA-MoE 구조에서의 전문가 할당 및 LLM 가지치기에서의 계층별 희소성 분포 두 가지 하류 애플리케이션에 적용하여 실험을 진행하였으며, 다양한 LLM 구조에서 일관된 성능 향상을 보였습니다.

시사점, 한계점

시사점:
데이터 중심적 접근을 통해 LLM의 계층별 훈련 품질을 효과적으로 평가하는 새로운 방법 제시.
과제별 계층 중요도 추정을 통해 LLM의 계층별 특화 정도를 파악 가능.
LoRA-MoE 및 LLM 가지치기와 같은 하류 애플리케이션에서 성능 향상을 가져옴.
모델 독립적인 접근 방식으로 다양한 LLM 구조에 적용 가능.
한계점:
영향 함수 계산의 계산 비용이 상당할 수 있음.
다양한 데이터셋과 LLM 아키텍처에 대한 추가적인 실험이 필요.
LayerIF의 성능 향상이 모든 하류 애플리케이션에서 일관되게 나타나는지에 대한 추가적인 검증 필요.
👍