ProFuser: Progressive Fusion of Large Language Models
Created by
Haebom
Category
Empty
저자
Tianyuan Shi, Fanqi Wan, Canbin Huang, Xiaojun Quan, Chenliang Li, Ming Yan, Ji Zhang, Minhua Huang, Wu Kai
개요
다양한 대규모 언어 모델의 역량 융합을 통해 더 강력하고 다재다능한 모델을 구축할 수 있지만, 훈련 중 유리한 모델을 적절하게 선택하는 것이 과제입니다. 기존 융합 방법은 교사 강제 설정에서 정답에 대한 교차 엔트로피를 사용하여 모델의 이점을 측정하는 훈련 모드에 중점을 둡니다. 본 논문에서는 훈련 및 추론 모드를 모두 통합하여 융합 프로세스를 개선하는 새로운 접근 방식을 소개합니다. 훈련 중 교차 엔트로피뿐만 아니라 추론 출력을 고려하여 모델의 이점을 평가하여 더 포괄적인 평가를 제공합니다. 두 모드를 효과적으로 결합하기 위해 추론 모드에서 훈련 모드로 점진적으로 전환하는 ProFuser를 제시합니다. Vicuna-7B-v1.5, Llama-2-7B-Chat, MPT-7B-8K-Chat의 세 가지 모델을 융합하여 ProFuser의 효과를 검증했으며, 기준 방법에 비해 지식, 추론 및 안전성 측면에서 성능이 향상되었음을 입증했습니다.
시사점, 한계점
•
시사점:
◦
훈련 및 추론 모드를 모두 고려하여 모델의 이점을 평가하는 새로운 융합 방법 제시.
◦
ProFuser를 통해 추론 모드에서 훈련 모드로 점진적인 전환을 가능하게 함.
◦
Vicuna, Llama-2, MPT 모델 융합을 통해 지식, 추론, 안전성 측면에서 성능 향상 입증.