haebom
Sign In
The Attacker in the Mirror: Breaking Self-Consistency in Safety via Anchored Bipolicy Self-Play
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Gabriele La Malfa, Emanuele La Malfa, Saar Cohen, Jie M. Zhang, Michael Luck, Michael Wooldridge, Elizabeth Black
π‘ κ°μ
λ³Έ λ Όλ¬Έμ AI μμ μ± ν₯μμ μν μκΈ° λμ (self-play) κΈ°λ²μ νκ³μ μ μ§μ νκ³ , λμΌ λͺ¨λΈμ 곡격μμ λ°©μ΄μλ‘ μ¬μ©ν λ λ°μνλ μ΄λ‘ μ , ꡬ쑰μ μ μ½μ ν΄κ²°νκΈ° μν μλ‘μ΄ μ κ·Ό λ°©μμΈ "Anchored Bipolicy Self-Play"λ₯Ό μ μν©λλ€. μ μλ λ°©λ²μ κ³ μ λ κΈ°λ° λͺ¨λΈ μμ μν λ³ LoRA μ΄λν°λ₯Ό νμ΅μμΌ, μμ μ μΈ μ΅μ νμ λͺ νν μν λΆλ¦¬λ₯Ό ν΅ν΄ μ λμ μλ ₯μ μ μ§νλ©° μμ μ± ν₯μμ μ΄λμ΄λ λλ€.
π μμ¬μ λ° νκ³
β’
λμΌ λͺ¨λΈμ μ¬μ©νλ κΈ°μ‘΄ μκΈ° λμ λ°©μμ νμ°μ μΌλ‘ λ¨μ κ±°μ μ λ΅μ΄λ μ€λΌν΄ μμ€μ λ°©μ΄ μ λ΅μΌλ‘ μλ ΄νμ¬ μ€μ©μ±μ΄ λ¨μ΄μ§λ λ¬Έμ λ₯Ό κ°μ§κ³ μμ΅λλ€.
β’
μ μλ Anchored Bipolicy Self-Playλ μν λ³ LoRA μ΄λν°λ₯Ό μ¬μ©νμ¬ νλΌλ―Έν° ν¨μ¨μ±μ 100λ°°κΉμ§ λμ΄κ³ , κΈ°μ‘΄ μκΈ° λμ λ°©μλ³΄λ€ μΌκ΄λ μμ μ± ν₯μμ 보μ¬μ€λλ€.
β’
λ€μν κ·λͺ¨μ Qwen2.5 λͺ¨λΈμ λν νκ° κ²°κ³Ό, μΆλ‘ λ₯λ ₯ μμ€ μμ΄ ν₯μλ κ²¬κ³ μ±μ μ μ¦νμΌλ©°, κ΅μ°¨ νλ μ΄ μ€νμμλ κΈ°μ‘΄ μκΈ° λμ λ°©μλ³΄λ€ μ°μν μ λμ λ°©μ΄ λ° μμ μ±μ 보μμ΅λλ€.
β’
ν₯ν μ°κ΅¬λ λμ± λ³΅μ‘νκ³ λ€μν 곡격 μλ리μ€μ λν κ²¬κ³ μ± κ°ν λ° μ€μ μ μ© κ°λ₯ν λ²μλ₯Ό λνλ λ°©ν₯μΌλ‘ μ§νλ μ μμ΅λλ€.
PDF 보기
Made with Slashpage