Sign In

Not All Turns Matter: Credit Assignment for Multi-Turn Jailbreaking

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhida He, Xiaoyu Wen, Han Qi, Ziyuan Zhou, Peng Yu, Xingcheng Xu, Dongrui Liu, Xia Hu, Chaochao Lu, Qiaosheng Zhang

πŸ’‘ κ°œμš”

λ³Έ 논문은 닀쀑 ν„΄ λŒ€ν™”μ—μ„œ λ°œμƒν•˜λŠ” LLM 취약점 곡격(jailbreaking)에 λŒ€ν•œ μ‹ κ·œ μ—°κ΅¬λ‘œ, 기쑴의 ν„΄ μˆ˜μ€€ 기여도λ₯Ό κ· μΌν•˜κ²Œ μ·¨κΈ‰ν•˜λŠ” 방식이 λ¬Έμ œμž„μ„ μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ TRACEλΌλŠ” ν„΄ 인식 μ‹ μš© ν• λ‹Ή ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•˜λ©°, 효과적인 곡격 μ „λž΅ ν•™μŠ΅κ³Ό λ°©μ–΄ 정렬을 λ™μ‹œμ— λ‹¬μ„±ν•˜λŠ” 것을 λͺ©ν‘œλ‘œ ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, TRACEλŠ” κΈ°μ‘΄ λŒ€λΉ„ 곡격 성곡λ₯ μ„ 25% ν–₯μƒμ‹œν‚€κ³  μ•ˆμ „-μœ ν‹Έλ¦¬ν‹° κ· ν˜•μ„ κ°œμ„ ν•˜λŠ” μ„±κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
닀쀑 ν„΄ LLM κ³΅κ²©μ—μ„œ 각 ν„΄μ˜ 기여도가 λΉ„κ· μΌν•˜λ©°, 이λ₯Ό μ •ν™•νžˆ νŒŒμ•…ν•˜λŠ” 것이 곡격 μ„±κ³΅μ˜ ν•΅μ‹¬μž„μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
TRACE ν”„λ ˆμž„μ›Œν¬λŠ” 성곡 및 μ‹€νŒ¨ ꢀ적 λͺ¨λ‘μ—μ„œ ν„΄ μˆ˜μ€€μ˜ μ‹ μš© 할당을 μ •κ΅ν•˜κ²Œ μ²˜λ¦¬ν•˜μ—¬ ν•™μŠ΅ νš¨μœ¨μ„±μ„ λ†’μž…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ TRACEλŠ” 곡격 성곡λ₯ , 전이성, νš¨μœ¨μ„± μΈ‘λ©΄μ—μ„œ μš°μˆ˜ν•˜λ©°, λ°©μ–΄ λͺ¨λΈκ³Όμ˜ 정렬에도 μœ μš©ν•¨μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” "λͺ¨λ“  턴이 μ€‘μš”ν•œ 것은 μ•„λ‹ˆλ‹€"λΌλŠ” 핡심 아이디어λ₯Ό 기반으둜 ν•˜λ©°, μ΄λŠ” LLM 곡격 및 λ°©μ–΄ 연ꡬ에 μƒˆλ‘œμš΄ λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제): TRACE ν”„λ ˆμž„μ›Œν¬μ˜ λ³΅μž‘μ„±μœΌλ‘œ 인해 μ‹€μ œ 적용 μ‹œ 계산 μžμ› μ†Œλͺ¨λŸ‰μ΄ 증가할 수 있으며, λ‹€μ–‘ν•œ μœ ν˜•μ˜ 곡격 및 λ°©μ–΄ μ‹œλ‚˜λ¦¬μ˜€μ— λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘