Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

Created by
  • Haebom

저자

Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang, Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Yao Lu, Oluwatobi Olabiyi, Yu-Chiang Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin, Pavlo Molchanov

개요

OmniVinci는 강하고, 오픈 소스이며, 다중 모달 LLM을 구축하기 위한 이니셔티브입니다. 모델 아키텍처 및 데이터 큐레이션 전반의 설계 선택 사항을 신중하게 연구합니다. 주요 혁신 사항으로는 (i) 비전 및 오디오 임베딩 간의 정렬을 강화하는 OmniAlignNet, (ii) 비전 및 오디오 신호 간의 상대적 시간 정렬을 캡처하는 Temporal Embedding Grouping, (iii) 다중 모달 임베딩에서 절대 시간 정보를 인코딩하는 Constrained Rotary Time Embedding이 있습니다. 또한 2400만 개의 단일 모달 및 다중 모달 대화를 생성하는 큐레이션 및 합성 파이프라인을 도입했습니다. OmniVinci는 DailyOmni (cross-modal 이해)에서 +19.05, MMAR (오디오)에서 +1.7, Video-MME (비전)에서 +3.9로 Qwen2.5-Omni보다 성능이 우수하며, 0.2T 훈련 토큰만 사용합니다. 로봇 공학, 의료 AI, 스마트 팩토리 등 다운스트림 응용 분야에서 다중 모달의 이점을 입증합니다.

시사점, 한계점

시사점:
OmniAlignNet, Temporal Embedding Grouping, Constrained Rotary Time Embedding과 같은 새로운 아키텍처 혁신을 통해 다중 모달 LLM의 성능 향상.
2400만 개의 대화 데이터를 생성하는 큐레이션 및 합성 파이프라인 도입.
Qwen2.5-Omni 대비 적은 훈련 토큰으로 더 높은 성능 달성.
로봇 공학, 의료 AI, 스마트 팩토리 등 다양한 분야에서 활용 가능성 제시.
한계점:
구체적인 모델 아키텍처 및 데이터 큐레이션 방식에 대한 상세 정보 부족.
모델의 일반화 성능에 대한 추가적인 검증 필요.
각 혁신 기술의 개별적인 기여도에 대한 분석 부족.
👍