๋ณธ ๋
ผ๋ฌธ์ ์ง๋ ํ์ต ๋ฐ์ดํฐ ๋ถ์กฑ์ผ๋ก ์ธํ ์๋ก์ด ๋์ ์ธ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ ๋ก์ท ๊ณจ๊ฒฉ ํ๋ ์ธ์(ZSAR) ๋ถ์ผ์ ๋์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํฉ๋๋ค. ๊ธฐ์กด ํ์ฐ ๋ชจ๋ธ์ ๊ณ ์ฃผํ ๋์ญํ์ ๊ณผ๋ํ๊ฒ ํํํํ๋ ์คํํธ๋ผ ํธํฅ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ๋ ์๋ฏธ๋ก ์ ์๋ด ์คํํธ๋ผ ์์ฐจ ๋ชจ๋, ํ์์คํ
์ ์ ์คํํธ๋ผ ์์ค, ๊ทธ๋ฆฌ๊ณ ์ปค๋ฆฌํ๋ผ ๊ธฐ๋ฐ ์๋ฏธ๋ก ์ ์ถ์ํ๋ฅผ ํตํฉํ FDSM(Frequency-Aware Diffusion for Skeleton-Text Matching)์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ฏธ์ธํ ์์ง์ ๋ํ
์ผ์ ํจ๊ณผ์ ์ผ๋ก ๋ณต๊ตฌํ์ฌ NTU RGB+D, PKU-MMD, Kinetics-skeleton ๋ฐ์ดํฐ์
์์ ์ต์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.