Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ProFuser: Progressive Fusion of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Tianyuan Shi, Fanqi Wan, Canbin Huang, Xiaojun Quan, Chenliang Li, Ming Yan, Ji Zhang, Minhua Huang, Wu Kai

개요

다양한 대규모 언어 모델의 역량 융합을 통해 더 강력하고 다재다능한 모델을 구축할 수 있지만, 훈련 중 유리한 모델을 적절하게 선택하는 것이 과제입니다. 기존 융합 방법은 교사 강제 설정에서 정답에 대한 교차 엔트로피를 사용하여 모델의 이점을 측정하는 훈련 모드에 중점을 둡니다. 본 논문에서는 훈련 및 추론 모드를 모두 통합하여 융합 프로세스를 개선하는 새로운 접근 방식을 소개합니다. 훈련 중 교차 엔트로피뿐만 아니라 추론 출력을 고려하여 모델의 이점을 평가하여 더 포괄적인 평가를 제공합니다. 두 모드를 효과적으로 결합하기 위해 추론 모드에서 훈련 모드로 점진적으로 전환하는 ProFuser를 제시합니다. Vicuna-7B-v1.5, Llama-2-7B-Chat, MPT-7B-8K-Chat의 세 가지 모델을 융합하여 ProFuser의 효과를 검증했으며, 기준 방법에 비해 지식, 추론 및 안전성 측면에서 성능이 향상되었음을 입증했습니다.

시사점, 한계점

시사점:
훈련 및 추론 모드를 모두 고려하여 모델의 이점을 평가하는 새로운 융합 방법 제시.
ProFuser를 통해 추론 모드에서 훈련 모드로 점진적인 전환을 가능하게 함.
Vicuna, Llama-2, MPT 모델 융합을 통해 지식, 추론, 안전성 측면에서 성능 향상 입증.
한계점:
구체적인 융합 성능 향상 정도에 대한 정량적 데이터가 논문에 제시되지 않음.
다른 모델과의 일반화 가능성에 대한 추가 연구 필요.
모델 융합 과정에서의 계산 비용에 대한 고려가 미흡함.
👍