Sign In

Frequency-Enhanced Diffusion Models: Curriculum-Guided Semantic Alignment for Zero-Shot Skeleton Action Recognition

Author
  • Haebom
Category
Empty

저자

Yuxi Zhou, Zhengbo Zhang, Jingyu Pan, Zhiyu Lin, Zhigang Tu

💡 개요

본 논문은 제로샷 골격 액션 인식(ZSAR)에서 발생하는 확산 모델의 고주파 동적 정보 손실 문제를 해결하기 위해 주파수 기반의 새로운 확산 모델(FDSM)을 제안합니다. 제안된 FDSM은 의미론적 가이드 스펙트럼 잔차 모듈, 타임스텝 적응형 스펙트럼 손실, 커리큘럼 기반 의미론적 추상화를 통합하여 미세한 동작 디테일을 효과적으로 복원합니다. 이를 통해 NTU RGB+D, PKU-MMD, Kinetics-skeleton 데이터셋에서 최고 수준의 성능을 달성했습니다.

🔑 시사점 및 한계

확산 모델의 스펙트럼 편향으로 인한 고주파 정보 손실 문제를 극복하는 새로운 접근 방식을 제시합니다.
제로샷 골격 액션 인식 분야에서 미세한 동작 디테일을 효과적으로 포착하고 복원하는 강력한 방법론을 개발했습니다.
제안된 방법론은 여러 주요 데이터셋에서 최첨단 성능을 보여 ZSAR 분야의 발전에 기여할 수 있습니다.
향후 연구에서는 더 복잡하고 미묘한 액션에 대한 인식 성능을 향상시키기 위한 추가적인 주파수 분석 및 모델 개선이 필요할 수 있습니다.
👍