Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Towards Facial Image Compression with Consistency Preserving Diffusion Prior

Created by
  • Haebom

저자

Yimin Zhou, Yichong Xia, Bin Chen, Baoyi An, Haoqian Wang, Zhi Wang, Yaowei Wang, Zikun Zhou

개요

본 논문은 다양한 분야에서 얼굴 이미지 데이터의 광범위한 활용에 따라 효율적인 얼굴 이미지 저장 및 전송에 대한 관심이 높아짐에 따라, 기존 학습 기반 얼굴 이미지 압축 방법들이 저 비트레이트에서 불만족스러운 재구성 이미지 품질을 생성하는 문제를 해결하기 위해 제안되었다. 기존 확산 기반 압축 방법을 얼굴 압축 작업에 단순히 적용하면 고주파 정보의 보존이 부족하여 후속 애플리케이션에서 성능이 저하되는 재구성 이미지가 생성되는 문제점을 지적한다. 이를 해결하기 위해, 본 논문에서는 주파수 향상을 통해 일관성을 유지하는 방법인 안정적인 확산 사전을 이용한 얼굴 이미지 압축 (FaSDiff)을 제안한다. FaSDiff는 고주파수에 민감한 압축기를 엔드투엔드 프레임워크에 사용하여 미세한 이미지 디테일을 포착하고 강력한 시각적 프롬프트를 생성한다. 또한 저주파수 향상 모듈을 도입하여 저주파수 얼굴 의미를 분리하고 시각적 프롬프트와 함께 확산 사전을 안정적으로 조절한다. 제안된 모듈을 통해 FaSDiff는 우수한 인간 시각적 인식을 위해 확산 사전을 활용하면서 의미적 불일치로 인한 컴퓨터 비전 성능 저하를 최소화한다. 광범위한 실험을 통해 FaSDiff가 인간의 시각적 품질과 컴퓨터 비전 정확도의 균형을 맞추는 데 있어 최첨단 방법들을 능가함을 보여준다. 코드는 논문이 수락된 후 공개될 예정이다.

시사점, 한계점

시사점:
저비트레이트에서도 고품질의 얼굴 이미지 재구성을 가능하게 하는 새로운 압축 방법 제시.
인간의 시각적 품질과 컴퓨터 비전 정확도 간의 균형을 향상시킴.
고주파수 정보 보존을 위한 효과적인 방법 제시 (고주파수에 민감한 압축기 및 저주파수 향상 모듈).
확산 모델 기반 얼굴 이미지 압축 분야의 발전에 기여.
한계점:
코드 공개가 논문 수락 이후로 지연됨.
다양한 얼굴 특징(예: 표정, 조명, 각도)에 대한 압축 성능의 일반화 가능성에 대한 추가 연구 필요.
실험 결과의 세부적인 내용(데이터셋, 평가 지표 등)이 논문 초록에 자세히 제시되지 않음.
👍