Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Shadow-FT: Tuning Instruct Model via Training on Paired Base Model

Created by
  • Haebom

저자

Taiqiang Wu, Runming Yang, Jiayi Li, Pengfei Hu, Yik-Chung Wu, Ngai Wong, Yujiu Yang

개요

대규모 언어 모델(LLM)은 추가적인 미세 조정으로 지속적으로 성능 향상을 보이지만, Instruct 모델을 직접 조정하는 것은 성능 개선이 미미하거나 오히려 저하될 수 있음을 관찰했습니다. Instruct 모델의 기반이 되는 Base 모델은 가중치 값이 매우 유사하며, Base 모델은 훌륭한 학습자이지만 후속 훈련 없이는 약한 백본 역할을 합니다. 따라서, 본 연구는 대응하는 Base 모델을 활용하여 Instruct 모델을 조정하는 Shadow-FT 프레임워크를 제안합니다. 핵심 아이디어는 Base 모델을 미세 조정하고, 학습된 가중치 업데이트를 Instruct 모델에 직접 적용하는 것입니다. Shadow-FT는 추가적인 파라미터를 도입하지 않으며, 구현이 용이하고 성능을 크게 향상시킵니다. Qwen 3 및 Llama 3 시리즈와 같은 주요 LLM에 대한 광범위한 실험을 수행하고, 코딩, 추론 및 수학적 작업 등 19개의 벤치마크에서 평가했습니다. 실험 결과는 Shadow-FT가 기존의 full-parameter 및 parameter-efficient tuning 방식을 일관되게 능가함을 보여줍니다. 또한, Shadow-FT는 멀티모달 LLM(MLLM)에 적용될 수 있으며, 직접 선호도 최적화(DPO)와 결합될 수 있습니다.

시사점, 한계점

Shadow-FT는 Instruct 모델의 성능을 효과적으로 향상시키는 새로운 프레임워크를 제시합니다.
Base 모델을 활용하여 Instruct 모델을 조정하는 혁신적인 접근 방식을 사용합니다.
추가 파라미터 없이 구현이 용이합니다.
코딩, 추론, 수학적 문제 등 다양한 벤치마크에서 기존 방식보다 우수한 성능을 보였습니다.
멀티모달 LLM 및 DPO와의 결합 가능성을 제시합니다.
논문에서 구체적인 한계점은 명시되지 않았습니다. (예: 특정 모델 또는 작업에 대한 제한 사항 등)
👍