본 논문은 기존의 대규모 언어 모델(LLM) 미세 조정 프로토콜에서 모델의 무결성을 유지하는 것이 성능 향상에 필수적인지에 대한 질문을 제기합니다. 그리고 모델의 무결성을 의도적으로 깨뜨림으로써 성능을 향상시킬 수 있다는 새로운 미세 조정 방법인 마스크 미세 조정(MFT)을 제시합니다. MFT는 일반적인 LLM 미세 조정 목표에 의해 감독되는 일련의 이진 마스크를 학습합니다. 다양한 도메인과 백본에 걸쳐 일관된 성능 향상(예: LLaMA2-7B/3.1-8B를 사용한 코딩에서 평균 1.95%/1.88% 향상)을 보여주는 광범위한 실험 결과를 제시하며, 하이퍼파라미터 관점에서 MFT를 연구하기 위한 자세한 절차를 제공합니다. MFT는 완전히 훈련된 모델에 배포함으로써 기존의 LLM 훈련 프로토콜을 자연스럽게 업데이트합니다. 또한, 모델 압축을 위한 기존의 네트워크 가지치기 맥락에서 마스크 학습의 기능을 보다 일반적인 범위로 확장합니다.
시사점, 한계점
•
시사점:
◦
LLM 미세 조정에서 모델 무결성 유지의 중요성에 대한 기존의 가정에 도전하고, 모델 무결성을 깨뜨림으로써 성능 향상을 달성할 수 있음을 보여줌.
◦
MFT는 다양한 도메인과 백본에서 일관된 성능 향상을 달성함.
◦
기존의 네트워크 가지치기에서 사용되던 마스크 학습 기법을 LLM 미세 조정에 적용하여 새로운 가능성을 제시함.
◦
기존 LLM 훈련 프로토콜을 효율적으로 업데이트하는 새로운 방법을 제공함.
•
한계점:
◦
제시된 실험 결과의 일반화 가능성에 대한 추가 연구가 필요함.
◦
MFT의 성능 향상이 모든 LLM과 모든 작업에 대해 일관되게 나타나는지에 대한 추가 검증 필요.