대규모 언어 모델(LLM)과 멀티모달 변형 모델이 텍스트 이미지를 포함한 시각적 입력을 처리할 수 있다는 점에 착안하여, 텍스트를 이미지로 변환하여 입력하는 방식이 토큰 사용량을 줄이면서 성능을 유지할 수 있는지 연구했습니다. 본 논문에서는 긴 텍스트 입력을 단일 이미지로 렌더링하여 모델에 직접 제공하는 '텍스트-이미지' 방식을 통해 디코더 LLM의 입력 압축 효과를 확인했습니다. RULER (긴 컨텍스트 검색) 및 CNN/DailyMail (문서 요약) 벤치마크 실험을 통해, 이 방법이 상당한 토큰 절감 효과 (종종 거의 절반)를 보이며, 작업 성능 저하 없이 효과적임을 입증했습니다.