본 논문은 다중 모달 대규모 언어 모델(MLLM)의 효율성을 향상시키는 새로운 모델 InternVL-X를 제안합니다. 기존 MLLM들이 시각 토큰을 텍스트 토큰처럼 처리하여 계산 자원 소모가 큰 문제점을 해결하기 위해, 세 가지 시각 토큰 압축 방법을 제시합니다. 첫째, 인접한 시각 임베딩을 통합하여 지역 쿼리와 전역 쿼리를 생성하고, 이를 통해 시각 정보를 효과적으로 변환하는 PVTC(Point-to-Region Visual Token Compression)를 제안합니다. 둘째, LLM의 상위 계층에서 토큰을 압축하고 하위 계층에서 업샘플링과 잔차 연결을 통해 압축된 토큰을 확장하는 LVTC(Layer-wise Visual Token Compression)를 제시하여 계산 효율성을 높입니다. 셋째, 이미지 영역 또는 길이 필터링을 기반으로 시각 토큰의 수를 동적으로 조절하는 RVTC(Region-wise Visual Token Compression)를 통해 훈련 효율성을 향상시킵니다. InternVL-X는 기존 InternVL 모델보다 성능과 효율성이 모두 향상되었으며, 7개의 공개 MLLM 벤치마크에서 최첨단 성능을 달성하고 12개 과제의 평균 지표를 2.34% 향상시켰습니다. 20% 이하의 시각 토큰만 사용하여 이러한 결과를 얻었습니다.