Sign In

Frequency-Enhanced Diffusion Models: Curriculum-Guided Semantic Alignment for Zero-Shot Skeleton Action Recognition

Created by
  • Haebom
Category
Empty

์ €์ž

Yuxi Zhou, Zhengbo Zhang, Jingyu Pan, Zhiyu Lin, Zhigang Tu

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์ง€๋„ ํ•™์Šต ๋ฐ์ดํ„ฐ ๋ถ€์กฑ์œผ๋กœ ์ธํ•œ ์ƒˆ๋กœ์šด ๋™์ž‘ ์ธ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์ œ๋กœ์ƒท ๊ณจ๊ฒฉ ํ–‰๋™ ์ธ์‹(ZSAR) ๋ถ„์•ผ์˜ ๋‚œ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ํ™•์‚ฐ ๋ชจ๋ธ์˜ ๊ณ ์ฃผํŒŒ ๋™์—ญํ•™์„ ๊ณผ๋„ํ•˜๊ฒŒ ํ‰ํ™œํ™”ํ•˜๋Š” ์ŠคํŽ™ํŠธ๋Ÿผ ํŽธํ–ฅ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๋ณธ ์—ฐ๊ตฌ๋Š” ์˜๋ฏธ๋ก ์  ์•ˆ๋‚ด ์ŠคํŽ™ํŠธ๋Ÿผ ์ž”์ฐจ ๋ชจ๋“ˆ, ํƒ€์ž„์Šคํ… ์ ์‘ ์ŠคํŽ™ํŠธ๋Ÿผ ์†์‹ค, ๊ทธ๋ฆฌ๊ณ  ์ปค๋ฆฌํ˜๋Ÿผ ๊ธฐ๋ฐ˜ ์˜๋ฏธ๋ก ์  ์ถ”์ƒํ™”๋ฅผ ํ†ตํ•ฉํ•œ FDSM(Frequency-Aware Diffusion for Skeleton-Text Matching)์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฏธ์„ธํ•œ ์›€์ง์ž„ ๋””ํ…Œ์ผ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ณต๊ตฌํ•˜์—ฌ NTU RGB+D, PKU-MMD, Kinetics-skeleton ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ตœ์‹  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
ํ™•์‚ฐ ๋ชจ๋ธ์˜ ์ŠคํŽ™ํŠธ๋Ÿผ ํŽธํ–ฅ์„ ๊ทน๋ณตํ•˜๊ณ  ๋ฏธ์„ธํ•œ ๋™์ž‘ ๋””ํ…Œ์ผ์„ ๋ณต๊ตฌํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹ ์ œ์‹œ.
โ€ข
์ œ๋กœ์ƒท ๊ณจ๊ฒฉ ํ–‰๋™ ์ธ์‹ ๋ถ„์•ผ์—์„œ ํš๊ธฐ์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ ๋‹ฌ์„ฑ.
โ€ข
์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต ๋ฐ ์ŠคํŽ™ํŠธ๋Ÿผ ๊ธฐ๋ฐ˜ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ํ•™์Šต ํšจ์œจ ๋ฐ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ๊ฐœ์„ .
โ€ข
ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ๋‹ค์–‘ํ•œ ๋ณต์žก์„ฑ๊ณผ ๋…ธ์ด์ฆˆ ์ˆ˜์ค€์„ ๊ฐ€์ง„ ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ ํƒ์ƒ‰ ๋ฐ ๋ชจ๋ธ์˜ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ๊ฐœ์„ ์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘