Sign In

When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

Created by
  • Haebom
Category
Empty

μ €μž

Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” ν…μŠ€νŠΈ 기반 λͺ…λ Ήμ—μ„œ μ‹œκ°μ  μž…λ ₯으둜 λ°œμ „ν•œ λŒ€κ·œλͺ¨ 이미지 νŽΈμ§‘ λͺ¨λΈμ˜ μƒˆλ‘œμš΄ λ³΄μ•ˆ 취약점을 μ œμ‹œν•©λ‹ˆλ‹€. 연ꡬ진은 μˆœμˆ˜ν•˜κ²Œ μ‹œκ°μ  μž…λ ₯을 톡해 μ•…μ˜μ μΈ μ§€μ‹œλ₯Ό μ „λ‹¬ν•˜λŠ” 졜초의 μ‹œκ° 쀑심 νƒˆμ˜₯ 곡격(Vision-Centric Jailbreak Attack, VJA)을 μ œμ•ˆν•˜κ³ , 이λ₯Ό μœ„ν•œ μ•ˆμ „ 쀑심 벀치마크인 IESBenchλ₯Ό κ΅¬μΆ•ν–ˆμŠ΅λ‹ˆλ‹€. VJAλŠ” μ΅œμ‹  μƒμš© λͺ¨λΈμ— λŒ€ν•΄ 높은 곡격 성곡λ₯ μ„ λ³΄μ˜€μœΌλ©°, λΉ„μΉ¨μŠ΅μ μΈ μ‹œκ°μ  μΆ”λ‘  기반 λ°©μ–΄ 기법을 톡해 μ΄λŸ¬ν•œ 취약점을 효과적으둜 μ™„ν™”ν•  수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹œκ°μ  μž…λ ₯을 ν†΅ν•œ μƒˆλ‘œμš΄ μ’…λ₯˜μ˜ 'νƒˆμ˜₯(Jailbreak)' 곡격 κ°€λŠ₯성을 μ œμ‹œν•˜μ—¬, λ°œμ „λœ 이미지 νŽΈμ§‘ λͺ¨λΈμ˜ μ•ˆμ „μ„± 연ꡬ에 μƒˆλ‘œμš΄ λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
IESBenchλΌλŠ” 체계적인 λ²€μΉ˜λ§ˆν¬μ™€ ν›ˆλ ¨ μ—†λŠ” λ°©μ–΄ 기법을 μ œκ³΅ν•˜μ—¬, ν–₯ν›„ μ•ˆμ „ν•˜κ³  μ‹ λ’°ν•  수 μžˆλŠ” 이미지 νŽΈμ§‘ μ‹œμŠ€ν…œ κ°œλ°œμ— κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©μ–΄ 기법이 μƒμš© μ‹œμŠ€ν…œ μˆ˜μ€€μ˜ μ•ˆμ „μ„±μ„ λ‹¬μ„±ν•˜λŠ” 데 νš¨κ³Όμ μ΄μ§€λ§Œ, 곡격 λ°©μ‹μ˜ 지속적인 λ°œμ „κ³Ό λ‹€μ–‘ν•œ μ‹œκ°μ  μž…λ ₯ μœ ν˜•μ— λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘