Sign In

A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift

Created by
  • Haebom
Category
Empty

저자

Sanath Budakegowdanadoddi Nagaraju, Brian Bernhard Moser, Tobias Christian Nauen, Stanislav Frolov, Federico Raue, Andreas Dengel

개요

Transformer 기반 아키텍처는 초해상도(SR) 모델의 이미지 재구성을 향상시켰지만, 2차적 주의 비용과 픽셀 수준 충실도를 약화시키는 조악한 패치 임베딩으로 인해 확장성에 제약이 있다. 본 논문에서는 진정한 픽셀 단위 추론을 위해 1x1 패치 임베딩을 적용하고, 기존의 self-attention을 TaylorShift로 대체하는 plug-and-play 프레임워크인 TaylorIR을 제안한다. TaylorShift는 Taylor 급수를 기반으로 한 주의 메커니즘으로, 거의 선형적인 복잡성으로 전체 토큰 상호 작용을 가능하게 한다. 여러 SR 벤치마크에서 TaylorIR은 최고 성능을 제공하는 동시에 메모리 소비를 최대 60%까지 줄여 세밀한 디테일 복원과 효율적인 변환기 확장의 격차를 효과적으로 해소한다.

시사점, 한계점

시사점:
초해상도(SR) 모델의 이미지 재구성 품질 향상.
2차적 주의 비용 문제를 해결하여 메모리 소비 감소 (최대 60%).
1x1 패치 임베딩과 TaylorShift를 통한 효율적인 변환기 구현.
세밀한 디테일 복원과 효율적인 확장성 간의 균형 달성.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음. (단, 추가적인 연구 및 개선 여지가 있을 수 있음)
👍