본 논문은 대규모 비전 언어 모델(LVLM)의 비전 토큰을 생성 및 판별 작업 모두에 적합하고, 거의 손실이 없으며, 저장 공간 효율적인 표현으로 압축하는 새로운 방법인 Fwd2Bot을 제안합니다. Fwd2Bot은 LVLM 자체를 사용하여 작업과 무관한 방식으로 시각 정보를 압축합니다. 이는 이중 전달(double-forward pass) 학습 전략을 사용하여, 첫 번째 전달에서 LLM이 시각 정보를 소수의 요약 토큰으로 압축하고, 두 번째 전달에서 동일한 LLM이 언어 지침과 함께 요약 토큰을 이미지 토큰 대신 처리합니다. 자기회귀 손실과 대조 손실을 사용하여 학습하며, 단계별 어댑터를 통해 학습을 향상시킵니다. 실험 결과, Fwd2Bot은 생성 및 판별 작업 모두에 적합한 정보량이 풍부한 압축된 표현을 생성하며, 생성 작업에서는 2배 높은 압축률을 달성하고, 판별 작업에서는 이미지 검색 및 구성성에서 최첨단 성능을 달성합니다.