Sign In

The Attacker in the Mirror: Breaking Self-Consistency in Safety via Anchored Bipolicy Self-Play

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Gabriele La Malfa, Emanuele La Malfa, Saar Cohen, Jie M. Zhang, Michael Luck, Michael Wooldridge, Elizabeth Black

πŸ’‘ κ°œμš”

λ³Έ 논문은 AI μ•ˆμ „μ„± ν–₯상을 μœ„ν•œ 자기 λŒ€μ „(self-play) κΈ°λ²•μ˜ ν•œκ³„μ μ„ μ§€μ ν•˜κ³ , 동일 λͺ¨λΈμ„ κ³΅κ²©μžμ™€ λ°©μ–΄μžλ‘œ μ‚¬μš©ν•  λ•Œ λ°œμƒν•˜λŠ” 이둠적, ꡬ쑰적 μ œμ•½μ„ ν•΄κ²°ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ μ ‘κ·Ό 방식인 "Anchored Bipolicy Self-Play"λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법은 κ³ μ •λœ 기반 λͺ¨λΈ μœ„μ— 역할별 LoRA μ–΄λŒ‘ν„°λ₯Ό ν•™μŠ΅μ‹œμΌœ, μ•ˆμ •μ μΈ μ΅œμ ν™”μ™€ λͺ…ν™•ν•œ μ—­ν•  뢄리λ₯Ό 톡해 μ λŒ€μ  μ••λ ₯을 μœ μ§€ν•˜λ©° μ•ˆμ „μ„± ν–₯상을 μ΄λŒμ–΄λƒ…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
동일 λͺ¨λΈμ„ μ‚¬μš©ν•˜λŠ” κΈ°μ‘΄ 자기 λŒ€μ „ 방식은 ν•„μ—°μ μœΌλ‘œ λ‹¨μˆœ 거절 μ „λž΅μ΄λ‚˜ 였라클 μˆ˜μ€€μ˜ λ°©μ–΄ μ „λž΅μœΌλ‘œ μˆ˜λ ΄ν•˜μ—¬ μ‹€μš©μ„±μ΄ λ–¨μ–΄μ§€λŠ” 문제λ₯Ό κ°€μ§€κ³  μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ Anchored Bipolicy Self-PlayλŠ” 역할별 LoRA μ–΄λŒ‘ν„°λ₯Ό μ‚¬μš©ν•˜μ—¬ νŒŒλΌλ―Έν„° νš¨μœ¨μ„±μ„ 100λ°°κΉŒμ§€ 높이고, κΈ°μ‘΄ 자기 λŒ€μ „ 방식보닀 μΌκ΄€λœ μ•ˆμ „μ„± ν–₯상을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ 규λͺ¨μ˜ Qwen2.5 λͺ¨λΈμ— λŒ€ν•œ 평가 κ²°κ³Ό, μΆ”λ‘  λŠ₯λ ₯ 손싀 없이 ν–₯μƒλœ 견고성을 μž…μ¦ν–ˆμœΌλ©°, ꡐ차 ν”Œλ ˆμ΄ μ‹€ν—˜μ—μ„œλ„ κΈ°μ‘΄ 자기 λŒ€μ „ 방식보닀 μš°μˆ˜ν•œ μ λŒ€μ  λ°©μ–΄ 및 μ•ˆμ „μ„±μ„ λ³΄μ˜€μŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬λŠ” λ”μš± λ³΅μž‘ν•˜κ³  λ‹€μ–‘ν•œ 곡격 μ‹œλ‚˜λ¦¬μ˜€μ— λŒ€ν•œ 견고성 κ°•ν™” 및 μ‹€μ œ 적용 κ°€λŠ₯ν•œ λ²”μœ„λ₯Ό λ„“νžˆλŠ” λ°©ν–₯으둜 진행될 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘