Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression

Created by
  • Haebom
Category
Empty

저자

Dongchen Lu, Yuyao Sun, Zilu Zhang, Leping Huang, Jianliang Zeng, Mao Shu, Huo Cao

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 효율성을 향상시키는 새로운 모델 InternVL-X를 제안합니다. 기존 MLLM들이 시각 토큰을 텍스트 토큰처럼 처리하여 계산 자원 소모가 큰 문제점을 해결하기 위해, 세 가지 시각 토큰 압축 방법을 제시합니다. 첫째, 인접한 시각 임베딩을 통합하여 지역 쿼리와 전역 쿼리를 생성하고, 이를 통해 시각 정보를 효과적으로 변환하는 PVTC(Point-to-Region Visual Token Compression)를 제안합니다. 둘째, LLM의 상위 계층에서 토큰을 압축하고 하위 계층에서 업샘플링과 잔차 연결을 통해 압축된 토큰을 확장하는 LVTC(Layer-wise Visual Token Compression)를 제시하여 계산 효율성을 높입니다. 셋째, 이미지 영역 또는 길이 필터링을 기반으로 시각 토큰의 수를 동적으로 조절하는 RVTC(Region-wise Visual Token Compression)를 통해 훈련 효율성을 향상시킵니다. InternVL-X는 기존 InternVL 모델보다 성능과 효율성이 모두 향상되었으며, 7개의 공개 MLLM 벤치마크에서 최첨단 성능을 달성하고 12개 과제의 평균 지표를 2.34% 향상시켰습니다. 20% 이하의 시각 토큰만 사용하여 이러한 결과를 얻었습니다.

시사점, 한계점

시사점:
시각 토큰 압축을 통해 다중 모달 대규모 언어 모델의 계산 비용을 효과적으로 절감할 수 있음을 보여줌.
제안된 세 가지 시각 토큰 압축 방법(PVTC, LVTC, RVTC)이 상호 보완적으로 작용하여 성능과 효율성을 동시에 향상시킴.
다양한 MLLM 벤치마크에서 최첨단 성능을 달성하여 모델의 우수성을 입증.
제한된 시각 토큰 사용에도 불구하고 높은 성능을 유지함으로써 실용적인 측면에서의 가치를 보여줌.
한계점:
제안된 방법의 효과는 특정 MLLM 구조와 벤치마크 데이터셋에 의존적일 수 있음.
다양한 유형의 이미지 데이터에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
RVTC의 동적 토큰 조절 전략이 모든 상황에 최적의 성능을 보장한다는 보장이 없음.
압축 과정에서 정보 손실이 발생할 가능성이 있으며, 그 정도를 정량적으로 분석하고 개선할 필요가 있음.
👍