Sign In

Stay in Character, Stay Safe: Dual-Cycle Adversarial Self-Evolution for Safety Role-Playing Agents

Created by
  • Haebom
Category
Empty

μ €μž

Mingyang Liao, Yichen Wan, shuchen wu, Chenxi Miao, Xin Shen, Weikang Li, Yang Li, Deguo Xia, Jizhou Huang

πŸ’‘ κ°œμš”

λ³Έ 논문은 LLM 기반 λ‘€ν”Œλ ˆμž‰μ—μ„œ 페λ₯΄μ†Œλ‚˜ 좩싀도λ₯Ό λ†’μΌμˆ˜λ‘ μ·¨μ•½ν•΄μ§€λŠ” μ•ˆμ „ 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ ν›ˆλ ¨ κ³Όμ • 없이 μΆ”λ‘  μ‹œμ— μž‘λ™ν•˜λŠ” "λ“€μ–Ό-사이클 μ λŒ€μ  자체 μ§„ν™”" ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 ν”„λ ˆμž„μ›Œν¬λŠ” 페λ₯΄μ†Œλ‚˜μ— νŠΉν™”λœ 곡격 ν”„λ‘¬ν”„νŠΈλ₯Ό μƒμ„±ν•˜λŠ” '곡격자 사이클'κ³Ό ν•™μŠ΅λœ μ‹€νŒ¨ 사둀λ₯Ό 기반으둜 μ•ˆμ „ κ·œμΉ™, 페λ₯΄μ†Œλ‚˜ μ œμ•½, μ•ˆμ „ν•œ μ˜ˆμ‹œλ‘œ κ΅¬μ„±λœ 계측적 지식 베이슀λ₯Ό κ΅¬μΆ•ν•˜λŠ” 'λ°©μ–΄μž 사이클'둜 이루어져 μžˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν›ˆλ ¨ 없이도 μΆ”λ‘  λ‹¨κ³„μ—μ„œ 페λ₯΄μ†Œλ‚˜ 좩싀도λ₯Ό μœ μ§€ν•˜λ©΄μ„œ μ•ˆμ „ μ œμ•½μ„ λ§Œμ‘±μ‹œν‚€λŠ” λ‘€ν”Œλ ˆμž‰ μ—μ΄μ „νŠΈλ₯Ό ꡬ좕할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
곡격 μœ ν˜•κ³Ό 페λ₯΄μ†Œλ‚˜μ˜ 진화에 μœ μ—°ν•˜κ²Œ λŒ€μ²˜ν•  수 있으며, 기쑴의 ν›ˆλ ¨ 기반 방식보닀 μœ μ§€λ³΄μˆ˜ λΉ„μš©μ΄ μ μŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ 독점 LLM에 걸쳐 페λ₯΄μ†Œλ‚˜ 좩싀도와 νƒˆμ˜₯ μ €ν•­μ„± λͺ¨λ‘μ—μ„œ κΈ°μ‘΄ κΈ°μ€€μ„  λŒ€λΉ„ μΌκ΄€λœ μ„±λŠ₯ ν–₯상을 보이며, 처음 λ³΄λŠ” 페λ₯΄μ†Œλ‚˜μ™€ 곡격 ν”„λ‘¬ν”„νŠΈμ—λ„ κ°•κ±΄ν•œ μΌλ°˜ν™” λŠ₯λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” ν›ˆλ ¨ λΉ„μš© 없이도 λ‘€ν”Œλ ˆμž‰ μ—μ΄μ „νŠΈμ˜ μ•ˆμ „μ„±μ„ ν–₯μƒμ‹œν‚€λŠ” μƒˆλ‘œμš΄ λ°©ν–₯을 μ œμ‹œν•˜λ©°, 특히 ν”„λ‘ ν‹°μ–΄ LLM에 적용 κ°€λŠ₯ν•˜λ‹€λŠ” μ μ—μ„œ 큰 μ˜λ―Έκ°€ μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ 더 λ³΅μž‘ν•˜κ³  λ―Έλ¬˜ν•œ μ•ˆμ „ 문제, 그리고 λ‹€μ–‘ν•œ ν˜•νƒœμ˜ λ‘€ν”Œλ ˆμž‰ μ‹œλ‚˜λ¦¬μ˜€μ— λŒ€ν•œ ν™•μž₯ 및 적용 κ°€λŠ₯성을 탐색해야 ν•  κ²ƒμž…λ‹ˆλ‹€.
πŸ‘