Sign In

Steering at the Source: Style Modulation Heads for Robust Persona Control

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yoshihiro Izawa, Gouki Minegishi, Koshi Eguchi, Sosuke Hosokawa, Kenjiro Taura

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ LLM μ œμ–΄ 방식인 Activation steering의 문제점인 일관성 μ €ν•˜λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, λͺ¨λΈ λ‚΄λΆ€μ—μ„œ 페λ₯΄μ†Œλ‚˜μ™€ μŠ€νƒ€μΌ ν˜•μ„±μ„ λ…λ¦½μ μœΌλ‘œ κ΄€μž₯ν•˜λŠ” μ†Œμˆ˜μ˜ 'Style Modulation Heads'λ₯Ό μ‹λ³„ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ νŠΉμ • μ–΄ν…μ…˜ ν—€λ“œμ—λ§Œ μ‘°ν–₯을 μ μš©ν•¨μœΌλ‘œμ¨, λͺ¨λΈμ˜ 행동 μ œμ–΄λ₯Ό κ°•ν™”ν•˜λ©΄μ„œλ„ κΈ°μ‘΄ λ°©μ‹μ—μ„œ λ°œμƒν•˜λŠ” 일관성 μ €ν•˜ 문제λ₯Ό 효과적으둜 μ™„ν™”ν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ˜ ꡬ성 μš”μ†Œ μˆ˜μ€€μ—μ„œ μ •λ°€ν•œ μ œμ–΄λ₯Ό 톡해 μ•ˆμ „ν•˜κ³  μ •ν™•ν•œ λͺ¨λΈ μ œμ–΄κ°€ κ°€λŠ₯함을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 λ‚΄λΆ€ μž‘λ™ 방식을 μ΄ν•΄ν•˜μ—¬ νŠΉμ • ꡬ성 μš”μ†Œ(μ–΄ν…μ…˜ ν—€λ“œ)κ°€ 페λ₯΄μ†Œλ‚˜ 및 μŠ€νƒ€μΌκ³Ό 같은 νŠΉμ • 행동을 μ œμ–΄ν•¨μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
기쑴의 λ²”μš©μ μΈ Activation steering 방식보닀 훨씬 적은 μ—°μ‚°λŸ‰μœΌλ‘œλ„ νŠΉμ • μŠ€νƒ€μΌμ„ 효과적으둜 μ œμ–΄ν•˜λ©΄μ„œλ„ 일관성 μ €ν•˜λ₯Ό 크게 쀄일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
Style Modulation Headsλ₯Ό μ‹λ³„ν•˜λŠ” 과정이 κ³„μ‚°μ μœΌλ‘œ λ³΅μž‘ν•  수 있으며, μ œμ•ˆλœ 방식이 λͺ¨λ“  μ’…λ₯˜μ˜ LLMμ΄λ‚˜ λͺ¨λ“  μ œμ–΄ λͺ©ν‘œμ— λŒ€ν•΄ λ™μΌν•˜κ²Œ νš¨κ³Όμ μΌμ§€λŠ” 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘