Sign In

Safety Geometry Collapse in Multimodal LLMs and Adaptive Drift Correction

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Jiahe Guo, Xiangran Guo, Jiaxuan Chen, Weixiang Zhao, Yanyan Zhao, Yutai Hou, Qianchao Wang, Dandan Tu, Bing Qin

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(MLLM)이 ν…μŠ€νŠΈμ—μ„œ ν•™μŠ΅ν•œ μ•ˆμ „ κΈ°λŠ₯을 λΉ„ν…μŠ€νŠΈ μž…λ ₯으둜 효과적으둜 μ „λ‹¬ν•˜μ§€ λͺ»ν•˜λŠ” 'λ©€ν‹°λͺ¨λ‹¬ μ•ˆμ „ 격차' ν˜„μƒμ„ λΆ„μ„ν•©λ‹ˆλ‹€. μ €μžλ“€μ€ 이 격차가 ν…μŠ€νŠΈ μ •λ ¬ κ±°λΆ€ λ°©ν–₯κ³Ό λͺ¨λ‹¬λ¦¬ν‹° 유발 λ“œλ¦¬ν”„νŠΈ λ°©ν–₯의 κΈ°ν•˜ν•™μ  κ΄€μ μ—μ„œ λ°œμƒν•˜λ©°, λ©€ν‹°λͺ¨λ‹¬ μž…λ ₯이 κ±°λΆ€ λ°©ν–₯의 μ‚¬μš© κ°€λŠ₯ν•œ 뢄리도λ₯Ό μ••μΆ•ν•˜μ—¬ 'μ•ˆμ „ κΈ°ν•˜ν•™μ  λΆ•κ΄΄'λ₯Ό μœ λ°œν•œλ‹€κ³  μ„€λͺ…ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ ν›ˆλ ¨ 없이 μΆ”λ‘  μ‹œ λͺ¨λ‹¬λ¦¬ν‹° λ“œλ¦¬ν”„νŠΈλ₯Ό μ μ‘μ μœΌλ‘œ κ΅μ •ν•˜λŠ” ReGap 방법을 μ œμ•ˆν•˜λ©°, 이λ₯Ό 톡해 MLLM의 μ•ˆμ „μ„±μ„ 크게 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ©€ν‹°λͺ¨λ‹¬ LLM의 μ•ˆμ „ κ²©μ°¨λŠ” ν…μŠ€νŠΈμ™€ λΉ„ν…μŠ€νŠΈ μž…λ ₯ κ°„μ˜ ν‘œν˜„ 곡간 κΈ°ν•˜ν•™μ  μ°¨μ΄μ—μ„œ λΉ„λ‘―λœλ‹€λŠ” 점을 λͺ…ν™•νžˆ 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λͺ¨λ‹¬λ¦¬ν‹° λ“œλ¦¬ν”„νŠΈ 보정을 톡해 μΆ”λ‘  μ‹œμ μ—μ„œλ„ MLLM의 μ•ˆμ „μ„±μ„ 효과적으둜 κ°œμ„ ν•  수 μžˆλŠ” 방법을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆν•˜λŠ” ReGap 방법은 좔가적인 ν›ˆλ ¨ 없이 μΆ”λ‘  μ‹œ 적용 κ°€λŠ₯ν•˜μ—¬ μ‹€μš©μ„±μ΄ λ†’μŠ΅λ‹ˆλ‹€.
β€’
λ“œλ¦¬ν”„νŠΈ ꡐ정 κ³Όμ •μ—μ„œ λ°œμƒν•˜λŠ” 자체 ꡐ정(self-rectification) ν˜„μƒμ„ λͺ¨λΈ λ‚΄λΆ€μ˜ μœ ν•΄μ„± 인식 μ‹ ν˜Έλ‘œ ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제) ReGap 방법이 λͺ¨λ“  μœ ν˜•μ˜ λͺ¨λ‹¬λ¦¬ν‹° λ“œλ¦¬ν”„νŠΈλ‚˜ λ³΅μž‘ν•œ λ©€ν‹°λͺ¨λ‹¬ μž…λ ₯에 λŒ€ν•΄ μΌκ΄€λœ μ„±λŠ₯을 λ³΄μΌμ§€λŠ” 좔가적인 검증이 ν•„μš”ν•˜λ©°, λ“œλ¦¬ν”„νŠΈ μΈ‘μ • 및 보정 λ©”μ»€λ‹ˆμ¦˜μ˜ μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ 연ꡬ가 더 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘