Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck

Created by
  • Haebom
Category
Empty

저자

Adrian Bulat, Yassine Ouali, Georgios Tzimiropoulos

개요

본 논문은 대규모 비전 언어 모델(LVLM)의 비전 토큰을 생성 및 판별 작업 모두에 적합하고, 거의 손실이 없으며, 저장 공간 효율적인 표현으로 압축하는 새로운 방법인 Fwd2Bot을 제안합니다. Fwd2Bot은 LVLM 자체를 사용하여 작업과 무관한 방식으로 시각 정보를 압축합니다. 이는 이중 전달(double-forward pass) 학습 전략을 사용하여, 첫 번째 전달에서 LLM이 시각 정보를 소수의 요약 토큰으로 압축하고, 두 번째 전달에서 동일한 LLM이 언어 지침과 함께 요약 토큰을 이미지 토큰 대신 처리합니다. 자기회귀 손실과 대조 손실을 사용하여 학습하며, 단계별 어댑터를 통해 학습을 향상시킵니다. 실험 결과, Fwd2Bot은 생성 및 판별 작업 모두에 적합한 정보량이 풍부한 압축된 표현을 생성하며, 생성 작업에서는 2배 높은 압축률을 달성하고, 판별 작업에서는 이미지 검색 및 구성성에서 최첨단 성능을 달성합니다.

시사점, 한계점

시사점:
대규모 비전 언어 모델의 비전 토큰을 효율적으로 압축하는 새로운 방법(Fwd2Bot) 제시.
생성 및 판별 작업 모두에 적합한 압축된 표현 생성.
생성 작업에서 기존 최고 성능을 뛰어넘는 2배 높은 압축률 달성.
판별 작업에서 이미지 검색 및 구성성 작업에서 최고 성능 달성.
한계점:
논문에서 구체적인 한계점이 언급되지 않음. 추가적인 실험이나 분석을 통해 한계점을 파악할 필요가 있음. 예를 들어, 특정 유형의 이미지나 작업에 대한 성능 저하 가능성, 압축 과정에서 발생할 수 있는 정보 손실의 정량적 분석 부족 등이 한계점으로 지적될 수 있음.
👍