Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BlueLM-2.5-3B Technical Report

Created by
  • Haebom

저자

Baojiao Xiong, Boheng Chen, Chengzhi Wang, Daxiong Luo, Dongsheng Xu, Dongyang Liu, Fan Yang, Fangyuan Li, Fei Teng, Feng Wang, Fukang Qin, Fuquan Peng, Guanxin Tan, Guozhi Wang, Haibo Yu, Haohao Gao, Heng Liu, Hongbo Yang, Hongjian Zou, Houzheng Shen, Hu Meng, Huan Li, Hui Tan, Jiali Chen, Jianzhao Chen, Jinliang Zhu, Kai Wang, Lei Wu, Liangbing Liu, Liuyang Bian, Liyan He, Long Liu, Peiwen Li, Penggang Shi, Qi Ding, Rui Hu, Shuai Cao, Shuai Ren, Shuang Peng, Teng Xie, Weiji Chen, Weilin Xiang, Weixin Wu, Xi Yin, Xiaoxin Chen, Xu Chen, Yafei Wen, Yan Hu, Yanzhou Yang, Yina Xie, Yinghao Chen, Yixuan Liao, Yu Geng, Yuanjiang Ouyang, Yuanzhuo Yang, Yuehua He, Yushuai Peng, Zhaoxiong Wang, Zheng Wang, Zhibo Zhou, Ziyang Wu

개요

BlueLM-2.5-3B는 경량화된 통합 다중 모드 대규모 언어 모델(MLLM)로, 에지 디바이스 배포에 적합하며 강력한 범용 및 추론 기능을 제공합니다. 30억 매개변수 규모의 MLLM 중 최초로 사고 모드와 비사고 모드를 모두 지원하며, 사고 토큰 예산을 명시적으로 제어할 수 있습니다. 다양한 데이터 큐레이션, 주요 데이터 재샘플링, 하이브리드 이종 강화 학습 및 고성능 훈련 인프라를 통해 개발되었으며, 29억 매개변수만으로 우수한 다중 모드 성능과 경쟁력 있는 순수 텍스트 성능을 달성합니다. 다양한 다중 모드 및 텍스트 전용 벤치마크에서 포괄적인 평가를 수행했습니다. 사고 모드에서는 텍스트 전용 벤치마크에서 Qwen3-4B와 유사한 성능을 보였고, 다중 모드 평가에서 Kimi-VL-A3B-16B보다 평균 약 5% 낮은 성능을 보였습니다. 비사고 모드에서는 대부분의 다중 모드 벤치마크에서 Qwen2.5-VL-3B를 능가했습니다. 또한 BlueLM-2.5-3B는 뛰어난 데이터 효율성을 보여줍니다. Qwen2.5-VL-3B 및 Qwen3-4B보다 훨씬 적은 총 학습 데이터로 상기 모든 성능을 달성했습니다.

시사점, 한계점

시사점:
경량화된 MLLM으로 에지 디바이스 배포에 적합합니다.
사고 모드와 비사고 모드를 모두 지원하며, 사고 토큰 예산 제어가 가능합니다.
29억 매개변수로 우수한 다중 모드 및 텍스트 성능을 달성합니다.
기존 모델들보다 뛰어난 데이터 효율성을 보입니다.
고성능 온디바이스 MLLM 연구에 기여합니다.
한계점:
Kimi-VL-A3B-16B와 같은 대규모 모델에 비해 다중 모드 평가에서 약 5%의 성능 차이를 보입니다. (사고 모드)
구체적인 한계점에 대한 논의가 부족합니다. (추가적인 분석 및 비교 연구가 필요함을 시사)
👍