Sign In

Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

Created by
  • Haebom
Category
Empty

저자

Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary, Congcong Chen, Dong Chen, Dongdong Chen, Junkun Chen, Weizhu Chen, Yen-Chun Chen, Yi-ling Chen, Qi Dai, Xiyang Dai, Ruchao Fan, Mei Gao, Min Gao, Amit Garg, Abhishek Goswami, Junheng Hao, Amr Hendy, Yuxuan Hu, Xin Jin, Mahmoud Khademi, Dongwoo Kim, Young Jin Kim, Gina Lee, Jinyu Li, Yunsheng Li, Chen Liang, Xihui Lin, Zeqi Lin, Mengchen Liu, Yang Liu, Gilsinia Lopez, Chong Luo, Piyush Madan, Vadim Mazalov, Ali Mousavi, Anh Nguyen, Jing Pan, Daniel Perez-Becker, Jacob Platin, Thomas Portet, Kai Qiu, Bo Ren, Liliang Ren, Sambuddha Roy, Ning Shang, Yelong Shen, Saksham Singhal, Subhojit Som, Xia Song, Tetyana Sych, Praneetha Vaddamanu, Shuohang Wang, Yiming Wang, Zhenghao Wang, Haibin Wu, Haoran Xu, Weijian Xu, Yifan Yang, Ziyi Yang, Donghan Yu, Ishmam Zabir, Jianwen Zhang, Li Lyna Zhang, Yunan Zhang, Xiren Zhou

개요

Phi-4-Mini와 Phi-4-Multimodal이라는 소형이지만 성능이 뛰어난 언어 및 멀티모달 모델을 소개합니다. Phi-4-Mini는 38억 개의 매개변수를 가진 언어 모델로, 고품질 웹 및 합성 데이터로 학습되어 유사한 크기의 최신 오픈소스 모델보다 성능이 훨씬 뛰어나며, 복잡한 추론이 필요한 수학 및 코딩 작업에서 두 배 크기의 모델과 동등한 성능을 보입니다. 이러한 성과는 고품질 수학 및 코딩 데이터 세트를 강조하는 신중하게 선별된 합성 데이터 레시피에 의해 달성되었습니다. Phi-4-Mini는 이전 모델인 Phi-3.5-Mini에 비해 어휘 크기가 20만 토큰으로 확장되어 다국어 애플리케이션을 더 잘 지원하며, 더 효율적인 긴 시퀀스 생성을 위한 그룹 쿼리 어텐션 기능을 갖추고 있습니다. Phi-4-Multimodal은 텍스트, 비전, 음성/오디오 입력 모드를 단일 모델에 통합하는 멀티모달 모델입니다. 이 모델의 새로운 모드 확장 방식은 LoRA 어댑터와 모드별 라우터를 활용하여 다양한 모드를 결합한 여러 추론 모드를 간섭 없이 허용합니다. 예를 들어, 음성/오디오 모드의 LoRA 구성 요소가 4억 6천만 개의 매개변수만 있음에도 불구하고 현재 OpenASR 리더보드에서 1위를 차지하고 있습니다. Phi-4-Multimodal은 (비전 + 언어), (비전 + 음성), (음성/오디오) 입력을 포함하는 시나리오를 지원하며 광범위한 작업에서 더 큰 비전-언어 및 음성-언어 모델보다 성능이 뛰어납니다. 또한, 추론 능력을 향상시키기 위해 Phi-4-Mini를 추가로 학습하는 실험을 수행했습니다. 38억 개의 매개변수라는 소형 크기임에도 불구하고, 이 실험 버전은 DeepSeek-R1-Distill-Qwen-7B 및 DeepSeek-R1-Distill-Llama-8B를 포함한 훨씬 더 큰 모델과 동등하거나 그 이상의 추론 성능을 달성합니다.

시사점, 한계점

시사점:
소형 모델에서도 고품질 데이터와 적절한 설계를 통해 대형 모델에 필적하는 성능을 달성할 수 있음을 보여줌.
LoRA 어댑터와 모드별 라우터를 활용한 효율적인 멀티모달 모델 구축 방식 제시.
합성 데이터의 효과적인 활용을 통한 모델 성능 향상 가능성 제시.
다국어 지원 및 긴 시퀀스 생성 효율 향상.
음성 인식 분야에서 최고 수준의 성능 달성.
한계점:
합성 데이터의 품질 및 구성에 대한 자세한 설명 부족.
Phi-4-Mini의 추가 학습에 대한 구체적인 방법론과 세부 결과 제시 부족.
다양한 하위 작업에 대한 성능 비교 분석 부족.
모델의 일반화 성능 및 견고성에 대한 추가적인 평가 필요.
👍