Frequency-Enhanced Diffusion Models: Curriculum-Guided Semantic Alignment for Zero-Shot Skeleton Action Recognition

작성자

Haebom

카테고리

Empty

저자

Yuxi Zhou, Zhengbo Zhang, Jingyu Pan, Zhiyu Lin, Zhigang Tu

💡 개요

본 논문은 지도 학습 데이터 부족으로 인한 새로운 동작 인식의 한계를 극복하기 위해 제로샷 골격 행동 인식(ZSAR) 분야의 난제를 해결하고자 합니다. 기존 확산 모델의 고주파 동역학을 과도하게 평활화하는 스펙트럼 편향 문제를 해결하기 위해, 본 연구는 의미론적 안내 스펙트럼 잔차 모듈, 타임스텝 적응 스펙트럼 손실, 그리고 커리큘럼 기반 의미론적 추상화를 통합한 FDSM(Frequency-Aware Diffusion for Skeleton-Text Matching)을 제안합니다. 이를 통해 미세한 움직임 디테일을 효과적으로 복구하여 NTU RGB+D, PKU-MMD, Kinetics-skeleton 데이터셋에서 최신 성능을 달성했습니다.

🔑 시사점 및 한계

•

확산 모델의 스펙트럼 편향을 극복하고 미세한 동작 디테일을 복구하는 새로운 접근 방식 제시.

•

제로샷 골격 행동 인식 분야에서 획기적인 성능 향상 달성.

•

커리큘럼 학습 및 스펙트럼 기반 손실 함수를 통해 모델의 학습 효율 및 일반화 성능 개선.

•

향후 연구에서는 다양한 복잡성과 노이즈 수준을 가진 실제 환경에서의 적용 가능성 탐색 및 모델의 계산 효율성 개선이 필요할 수 있습니다.

PDF 보기

Made with Slashpage