Sign In

Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

Created by
  • Haebom
Category
Empty

저자

Microsoft, :, Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary, Congcong Chen, Dong Chen, Dongdong Chen, Junkun Chen, Weizhu Chen, Yen-Chun Chen, Yi-ling Chen, Qi Dai, Xiyang Dai, Ruchao Fan, Mei Gao, Min Gao, Amit Garg, Abhishek Goswami, Junheng Hao, Amr Hendy, Yuxuan Hu, Xin Jin, Mahmoud Khademi, Dongwoo Kim, Young Jin Kim, Gina Lee, Jinyu Li, Yunsheng Li, Chen Liang, Xihui Lin, Zeqi Lin, Mengchen Liu, Yang Liu, Gilsinia Lopez, Chong Luo, Piyush Madan, Vadim Mazalov, Arindam Mitra, Ali Mousavi, Anh Nguyen, Jing Pan, Daniel Perez-Becker, Jacob Platin, Thomas Portet, Kai Qiu, Bo Ren, Liliang Ren, Sambuddha Roy, Ning Shang, Yelong Shen, Saksham Singhal, Subhojit Som, Xia Song, Tetyana Sych, Praneetha Vaddamanu, Shuohang Wang, Yiming Wang, Zhenghao Wang, Haibin Wu, Haoran Xu, Weijian Xu, Yifan Yang, Ziyi Yang, Donghan Yu, Ishmam Zabir, Jianwen Zhang, Li Lyna Zhang, Yunan Zhang, Xiren Zhou

개요

Phi-4-Mini와 Phi-4-Multimodal이라는 소형이지만 성능이 뛰어난 언어 및 멀티모달 모델을 소개합니다. Phi-4-Mini는 38억 매개변수의 언어 모델로, 고품질 웹 및 합성 데이터로 훈련되어 유사한 크기의 최신 오픈소스 모델보다 성능이 훨씬 뛰어나며, 복잡한 추론이 필요한 수학 및 코딩 작업에서 두 배 크기의 모델과 동등한 성능을 보입니다. 이러한 성과는 고품질 수학 및 코딩 데이터 세트를 중시하는 신중하게 기획된 합성 데이터 레시피에 의해 이루어졌습니다. Phi-4-Mini는 이전 모델인 Phi-3.5-Mini에 비해 어휘 크기가 20만 토큰으로 확장되어 다국어 응용 프로그램을 더 잘 지원하며, 더 효율적인 장기 시퀀스 생성을 위해 그룹 쿼리 어텐션을 특징으로 합니다. Phi-4-Multimodal은 텍스트, 비전, 음성/오디오 입력 모드를 단일 모델에 통합하는 멀티모달 모델입니다. 이 모델의 새로운 모드 확장 방식은 LoRA 어댑터와 모드별 라우터를 활용하여 다양한 모드를 결합한 여러 추론 모드를 간섭 없이 허용합니다. 예를 들어, 음성/오디오 모드의 LoRA 구성 요소가 4억 6천만 매개변수에 불과하지만 현재 OpenASR 리더보드에서 1위를 차지하고 있습니다. Phi-4-Multimodal은 (비전 + 언어), (비전 + 음성), (음성/오디오) 입력을 포함하는 시나리오를 지원하며, 광범위한 작업에서 더 큰 비전-언어 및 음성-언어 모델보다 성능이 뛰어납니다. 또한, 추론 능력을 향상시키기 위해 Phi-4-Mini를 추가로 훈련하는 실험을 수행했습니다. 38억 매개변수의 소형 크기에도 불구하고, 이 실험적 버전은 DeepSeek-R1-Distill-Qwen-7B 및 DeepSeek-R1-Distill-Llama-8B를 포함한 훨씬 더 큰 모델과 동등하거나 능가하는 추론 성능을 달성합니다.

시사점, 한계점

시사점:
소형 모델임에도 불구하고, 고품질 데이터와 효율적인 아키텍처를 통해 대형 모델과 유사하거나 뛰어난 성능을 달성.
멀티모달 모델에서 LoRA 어댑터와 모드별 라우터를 이용한 효율적인 모드 통합 방식 제시.
다양한 모드 조합을 지원하는 유연한 멀티모달 모델 구축 가능성 제시.
수학 및 코딩과 같은 복잡한 추론 작업에서 강력한 성능을 보임.
한계점:
합성 데이터에 대한 의존도가 높아 실제 데이터에 대한 일반화 성능 평가 필요.
아직 실험적인 단계의 모델이며, 추가적인 검증과 개선이 필요.
특정 작업에 대한 성능 평가가 주로 이루어져, 일반적인 성능 평가는 추가 연구가 필요.
LoRA를 이용한 모달 확장의 한계점에 대한 추가적인 분석 필요.
👍