Sign In

DualComp: End-to-End Learning of a Unified Dual-Modality Lossless Compressor

Created by
  • Haebom
Category
Empty

저자

Yan Zhao, Zhengxue Cheng, Junxuan Zhang, Qunshan Gu, Qi Wang, Li Song

개요

본 논문은 단일 모달리티에 특화된 기존 학습 기반 무손실 압축 방식의 한계를 극복하고, 이미지와 텍스트라는 두 가지 주요 모달리티를 통합적으로 처리하는 경량의 학습 기반 이중 모달리티 무손실 압축 모델인 DualComp를 제안합니다. DualComp는 모달리티 통합 토큰화, 모달리티 전환 상황 학습, 모달리티 라우팅 전문가 혼합이라는 세 가지 핵심 구조적 개선을 통해 모달리티 이질성을 처리합니다. 또한, 재매개변수화 학습 전략을 사용하여 압축 성능을 향상시키고, 모달리티 특정 및 공유 파라미터를 통합하여 효율적인 파라미터 활용을 가능하게 합니다. 덕분에 데스크탑 CPU에서 실시간에 가까운 추론 속도(200KB/s)를 달성하며, 기존 최첨단 LLM 기반 방법들과 비슷한 수준의 압축 성능을 훨씬 적은 파라미터로 달성합니다. 단일 모달리티 변형의 경우, 기존 최고 성능의 이미지 압축기보다 Kodak 데이터셋에서 약 9% 향상된 성능을 기록했습니다.

시사점, 한계점

시사점:
이미지와 텍스트를 위한 통합적이고 경량의 학습 기반 무손실 압축 모델을 제시합니다.
기존 최첨단 LLM 기반 방법들과 비슷한 성능을 훨씬 적은 파라미터로 달성하여 효율성을 높였습니다.
실시간에 가까운 추론 속도를 달성하여 실용성을 높였습니다.
단일 모달리티 변형에서도 기존 최고 성능을 능가하는 성능을 보였습니다.
한계점:
현재 이미지와 텍스트 두 가지 모달리티에만 집중되어 있으며, 다른 모달리티로의 확장성은 추가 연구가 필요합니다.
제안된 모델의 성능은 특정 데이터셋에 대한 결과이며, 다른 데이터셋으로의 일반화 성능은 추가적인 검증이 필요합니다.
모델의 경량화를 위해 일부 기능을 제한했을 수 있으며, 성능과 경량화 사이의 균형점을 찾는 추가적인 연구가 필요할 수 있습니다.
👍