Sign In

Differentially Private Multimodal In-Context Learning

Created by
  • Haebom
Category
Empty

์ €์ž

Ivoline C. Ngong, Zarreen Reza, Joseph P. Near

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์˜๋ฃŒ ์˜์ƒ์ด๋‚˜ ๊ฐœ์ธ ์‚ฌ์ง„๊ณผ ๊ฐ™์ด ๋ฏผ๊ฐํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต(in-context learning)์—์„œ ๊ธฐ์กด์— ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜์œผ๋กœ๋งŒ ๊ฐ€๋Šฅํ–ˆ๋˜ ์ฐจ๋“ฑ ํ”„๋ผ์ด๋ฒ„์‹œ(differential privacy)์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•œ 'DP-MTV' ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. DP-MTV๋Š” ์ˆ˜๋ฐฑ ๊ฐœ์˜ ์˜ˆ์‹œ๋ฅผ ํ™œ์„ฑํ™” ๊ณต๊ฐ„์˜ ์••์ถ•๋œ ํƒœ์Šคํฌ ๋ฒกํ„ฐ๋กœ ์ง‘๊ณ„ํ•จ์œผ๋กœ์จ, ๋‹จ์ผ ๋…ธ์ด์ฆˆ ์ถ”๊ฐ€๋งŒ์œผ๋กœ ๋ฌด์ œํ•œ ์ถ”๋ก  ์ฟผ๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ฉฐ $(\varepsilon, \delta)$-์ฐจ๋“ฑ ํ”„๋ผ์ด๋ฒ„์‹œ๋ฅผ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋งŽ์€ ์ˆ˜์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์˜ˆ์‹œ๋ฅผ ํ™œ์šฉํ•œ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋ฏผ๊ฐํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” VLM์—์„œ ํšจ์œจ์ ์ด๊ณ  ๊ฐ•๋ ฅํ•œ ์ฐจ๋“ฑ ํ”„๋ผ์ด๋ฒ„์‹œ๋ฅผ ์ œ๊ณตํ•˜๋Š” ์ตœ์ดˆ์˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๊ธฐ์กด์˜ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต์˜ ํ”„๋ผ์ด๋ฒ„์‹œ ์ œ์•ฝ์„ ๋„˜์–ด, ๋งŽ์€ ์ˆ˜์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์˜ˆ์‹œ๋ฅผ ํ™œ์šฉํ•˜๋ฉด์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ DP-MTV ํ”„๋ ˆ์ž„์›Œํฌ๋Š” $\varepsilon=1.0$ ํ™˜๊ฒฝ์—์„œ VizWiz ๋ฒค์น˜๋งˆํฌ์—์„œ ๋น„๊ณต๊ฐœ 50% ๋Œ€๋น„ ๋น„๊ฐœ์ธ ์ •๋ณด 55% ๋ฐ ์ œ๋กœ์ƒท 35%์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ํ”„๋ผ์ด๋ฒ„์‹œ ์ œ์•ฝ ํ•˜์—์„œ๋„ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต์˜ ์ด์ ์„ ์ƒ๋‹น ๋ถ€๋ถ„ ๋ณด์กดํ•ฉ๋‹ˆ๋‹ค.
โ€ข
์ถ”๊ฐ€์ ์ธ ๋ณด์กฐ ๋ฐ์ดํ„ฐ์˜ ์œ ๋ฌด์— ๋”ฐ๋ผ ๋ฐฐํฌ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์„ธ ๊ฐ€์ง€ VLM ์•„ํ‚คํ…์ฒ˜์— ๊ฑธ์ณ 8๊ฐœ์˜ ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ฐ€๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘