Sign In

DMN: A Compositional Framework for Jailbreaking Multimodal LLMs with Multi-Image Inputs

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Wenzhuo Xu, Zhipeng Wei, Zonghao Ying, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang, Quanchen Zou

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋‹ค์ค‘ ์ด๋ฏธ์ง€ ์ž…๋ ฅ์„ ์ง€์›ํ•˜๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(MLLM)์˜ ์ทจ์•ฝ์ ์„ ํŒŒ๊ณ ๋“œ๋Š” ์ƒˆ๋กœ์šด ํƒˆ์˜ฅ(jailbreaking) ๋ฐฉ๋ฒ•๋ก ์ธ DMN์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. DMN์€ ๋ถ„์‚ฐ๋œ ์ง€์‹œ, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ฆ๊ฑฐ, ๊ทธ๋ฆฌ๊ณ  ์ˆซ์ž ์—ฐ๊ณ„ ๊ณผ์ œ๋ฅผ ํ™œ์šฉํ•˜์—ฌ MLLM์˜ ์•ˆ์ „ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์šฐํšŒํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, GPT-4o, Gemini-2.5-pro, Claude Sonnet 4์™€ ๊ฐ™์€ ์ตœ์‹  MLLM์— ๋Œ€ํ•ด 90% ์ด์ƒ์˜ ๋†’์€ ๊ณต๊ฒฉ ์„ฑ๊ณต๋ฅ ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก ์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋‹ค์ค‘ ์ด๋ฏธ์ง€ ์ž…๋ ฅ ๊ธฐ๋Šฅ์„ ๊ฐ€์ง„ MLLM์ด ๋‹จ์ผ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ๊ณต๊ฒฉ์— ๋น„ํ•ด ๋” ์‹ฌ๊ฐํ•œ ๋ณด์•ˆ ์ทจ์•ฝ์ ์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
DMN์€ ์—ฌ๋Ÿฌ ์ด๋ฏธ์ง€๋ฅผ ํ†ตํ•ด ์œ ํ•ดํ•œ ์š”์ฒญ์„ ๋ถ„์‚ฐ์‹œํ‚ค๊ณ , ํ’๋ถ€ํ•œ ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์ถ”๊ฐ€์ ์ธ ์‹œ๊ฐ ์ถ”๋ก  ๊ณผ์ œ๋ฅผ ์ด์šฉํ•˜์—ฌ MLLM์„ ํšจ๊ณผ์ ์œผ๋กœ ์†์ผ ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ DMN ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์„ฑ๊ณต์€ MLLM์˜ ์•ˆ์ „ ์ •๋ ฌ์ด ๋‹ค์ค‘ ์ด๋ฏธ์ง€ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ ์•„์ง ์ถฉ๋ถ„ํžˆ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š์•˜์Œ์„ ์‹œ์‚ฌํ•˜๋ฉฐ, ํ–ฅํ›„ MLLM ๋ณด์•ˆ ์—ฐ๊ตฌ์˜ ๋ฐฉํ–ฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๋ณธ ์—ฐ๊ตฌ์˜ ํ•œ๊ณ„์ ์€ ํŠน์ • MLLM ๋ชจ๋ธ์— ๋Œ€ํ•œ ์‹คํ—˜ ๊ฒฐ๊ณผ์ด๋ฉฐ, ๋‹ค์–‘ํ•œ ์•„ํ‚คํ…์ฒ˜ ๋ฐ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ๊ฐ€์ง„ MLLM์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์€ ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘