본 논문은 고해상도 이미지를 필요로 하는 Vision Large Language Model (VLLM)의 훈련 및 배포 효율성 문제를 해결하기 위해 효율적인 시각 토큰 압축 프레임워크를 제안합니다. 경량의 자기 증류 사전 훈련 단계를 통해 시각 토큰을 압축하고, 이미지-텍스트 쌍의 수와 학습 가능한 매개변수를 최소화합니다. 또한, 토큰 압축으로 인한 성능 저하를 완화하기 위해 고품질 사후 훈련 단계를 구성합니다. InternVL2를 이용한 실험 결과, 제안된 방법이 계산 오버헤드를 크게 줄이면서 다양한 텍스트 중심 벤치마크에서 기존 방법보다 우수한 성능을 보임을 확인했습니다. 모델과 코드는 곧 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
고해상도 이미지를 사용하는 VLLM의 훈련 및 배포 효율성을 크게 향상시킬 수 있습니다.
◦
경량의 자기 증류 사전 훈련 및 고품질 사후 훈련 단계를 통해 토큰 압축으로 인한 성능 저하를 최소화합니다.
◦
다양한 텍스트 중심 벤치마크에서 기존 방법보다 우수한 성능을 보입니다.
◦
모델과 코드 공개를 통해 연구의 재현성 및 확장성을 높입니다.
•
한계점:
◦
제안된 방법의 효과는 특정 VLLM (InternVL2)에 대한 실험 결과에 기반하며, 다른 VLLM에 적용했을 때의 성능은 추가적인 연구가 필요합니다.
◦
사전 훈련 및 사후 훈련 단계의 최적 파라미터 설정은 추가적인 연구가 필요할 수 있습니다.
◦
현재까지는 실험 결과만 제시되었고, 실제 모델 및 코드 공개는 아직 이루어지지 않았습니다.