Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FAPE-IR: Frequency-Aware Planning and Execution Framework for All-in-One Image Restoration

Created by
  • Haebom
Category
Empty

저자

Jingren Liu, Shuning Xu, Qirui Yang, Yun Wang, Xiangyu Chen, Zhong Ji

개요

본 논문은 다양한 열화 환경에서 여러 종류의 이미지 복원을 처리하는 통합 모델 개발을 목표로 한다. 이를 위해, FAPE-IR(Frequency-Aware Planning and Execution framework for image restoration)을 제안한다. FAPE-IR은 고정된 Multimodal Large Language Model (MLLM)을 사용하여 손상된 이미지를 분석하고 주파수 인식 복원 계획을 생성한다. 이러한 계획은 LoRA 기반 Mixture-of-Experts (LoRA-MoE) 모듈을 안내하며, 확산 기반 실행기를 통해 고주파 또는 저주파 전문가를 동적으로 선택한다. 또한, 적대적 훈련과 주파수 정규화 손실을 도입하여 복원 품질을 향상시키고 아티팩트를 줄인다. FAPE-IR은 의미론적 계획과 주파수 기반 복원을 결합하여 통합적이고 해석 가능한 솔루션을 제공하며, 광범위한 실험을 통해 7가지 복원 작업에서 최첨단 성능을 달성하고 혼합된 열화 환경에서 강력한 제로샷 일반화 능력을 보여준다.

시사점, 한계점

시사점:
MLLM을 활용한 주파수 인식 복원 계획 수립을 통해 다양한 열화에 효과적으로 대응.
LoRA-MoE 기반의 확산 모델을 사용하여 효율적이고 유연한 복원 수행.
적대적 훈련 및 주파수 정규화 손실을 통해 복원 품질 개선 및 아티팩트 감소.
7가지 복원 작업에서 SOTA 달성 및 혼합 열화 환경에서 강력한 제로샷 일반화 성능 입증.
의미론적 계획과 주파수 기반 복원의 결합을 통한 통합적이고 해석 가능한 솔루션 제시.
한계점:
MLLM의 성능에 따라 복원 계획의 품질이 좌우될 수 있음.
LoRA-MoE 및 확산 모델의 복잡성으로 인해 계산 비용이 높을 수 있음.
훈련 데이터의 편향이 성능에 영향을 미칠 수 있음.
👍