Sign In

Membership Inference Attacks on Discrete Diffusion Language Models

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Shailesh Kasivelrajan

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ์—ฐ๊ตฌ๋Š” ์ด์‚ฐ ํ™•์‚ฐ ์–ธ์–ด ๋ชจ๋ธ(MDLM)์˜ ๊ฐœ์ธ ์ •๋ณด ๋ณดํ˜ธ ์ทจ์•ฝ์„ฑ์„ ํƒ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ๋ฉค๋ฒ„์‹ญ ์ถ”๋ก  ๊ณต๊ฒฉ(MIA)์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์€ ๋ชจ๋ธ์˜ ์žฌ๊ตฌ์„ฑ ์†์‹ค์—์„œ ์ถ”์ถœํ•œ ํŠน์ง• ๋ฒกํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค MDLM์ด ๋ฉค๋ฒ„์‹ญ ์ถ”๋ก  ๊ณต๊ฒฉ์— ํ›จ์”ฌ ๋” ์ทจ์•ฝํ•จ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, XGBoost ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์‚ฌ์šฉํ•œ ๊ณต๊ฒฉ์€ ์•™์ƒ๋ธ” ๊ธฐ๋ฐ˜์˜ ํšŒ์ƒ‰ ์ƒ์ž(grey box) ๊ธฐ์ค€์„ ์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ด์‚ฐ ํ™•์‚ฐ ์–ธ์–ด ๋ชจ๋ธ์€ ๋ฉค๋ฒ„์‹ญ ์ถ”๋ก  ๊ณต๊ฒฉ์— ๋Œ€ํ•ด ์˜ˆ์ƒ๋ณด๋‹ค ํ›จ์”ฌ ์ทจ์•ฝํ•˜๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ ํ›ˆ๋ จ ์‹œ ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ •๋ณด ์œ ์ถœ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
โ€ข
๊ณต๊ฒฉ์˜ ์„ฑ๋Šฅ์€ ์ฃผ๋กœ ๋ชจ๋ธ์˜ ELBO ๊ถค์ ์— ์˜ํ•ด ์ขŒ์šฐ๋˜๋ฉฐ, ์–ดํ…์…˜(attention)๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ํŠน์ง•์€ ์ƒ๋Œ€์ ์œผ๋กœ ์ ์€ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค.
โ€ข
๊ทธ๋ฆผ์ž ๋ชจ๋ธ(shadow model) ์ „์ด ๊ณต๊ฒฉ ๊ธฐ๋ฒ•์€ ํ‘œ์  ๋„๋ฉ”์ธ์— ์ ‘๊ทผํ•˜์ง€ ์•Š๊ณ ๋„ ํšจ๊ณผ์ ์ธ ๋ฉค๋ฒ„์‹ญ ์ถ”๋ก  ๊ณต๊ฒฉ์ด ๊ฐ€๋Šฅํ•จ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด๋Š” ์‹ค์งˆ์ ์ธ ๊ฐœ์ธ ์ •๋ณด ์นจํ•ด ์œ„ํ˜‘์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๊ณต๊ฒฉ ๋ฐฉ๋ฒ•์˜ ์‹ค์งˆ์ ์ธ ํšจ์œจ์„ฑ๊ณผ ๋‹ค๋ฅธ ์œ ํ˜•์˜ ํ™•์‚ฐ ๋ชจ๋ธ ๋ฐ ๊ณต๊ฒฉ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘