Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Created by
  • Haebom
Category
Empty

저자

Dongyang Liu, Renrui Zhang, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao, Peng Gao

개요

SPHINX-X는 SPHINX를 기반으로 개발된 대규모 다중 모달 언어 모델(MLLM) 시리즈입니다. 기존 SPHINX 프레임워크를 개선하여 중복된 비주얼 인코더 제거, 스킵 토큰을 이용한 완전 패딩된 하위 이미지 우회, 다단계 훈련을 일괄 훈련으로 단순화했습니다. 공개적으로 이용 가능한 언어, 비전, 비전-언어 작업 관련 리소스를 포함하는 포괄적인 다중 도메인 및 다중 모달 데이터셋을 구성하여 MLLM의 잠재력을 최대한 활용하고, OCR 집약적 데이터셋과 Set-of-Mark 데이터셋을 추가하여 다양성과 일반성을 확장했습니다. TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, Mixtral8x7B 등 다양한 기본 LLM을 사용하여 매개변수 크기와 다국어 기능이 다른 MLLM 스펙트럼을 얻었습니다. 포괄적인 벤치마킹 결과, 다중 모달 성능과 데이터 및 매개변수 규모 간의 강력한 상관관계를 보였습니다. 코드와 모델은 https://github.com/Alpha-VLLM/LLaMA2-Accessory 에서 공개됩니다.

시사점, 한계점

시사점:
SPHINX 프레임워크 개선을 통해 훈련 효율성 향상.
다양한 기본 LLM을 활용한 다양한 크기와 기능의 MLLM 제공.
다중 모달 성능과 데이터 및 매개변수 규모 간의 강력한 상관관계 확인.
OCR 집약적 데이터셋과 Set-of-Mark 데이터셋을 통한 데이터셋 다양성 확장.
코드와 모델 공개를 통한 연구 재현성 및 활용도 증가.
한계점:
구체적인 성능 향상 수치 및 비교 대상 모델에 대한 정보 부족.
사용된 데이터셋의 상세한 구성 및 품질에 대한 정보 부족.
다양한 언어에 대한 지원 범위 및 성능에 대한 자세한 분석 부족.
장기적인 모델 안정성 및 확장성에 대한 평가 부족.
👍