Sign In

How LLMs Are Persuaded: A Few Attention Heads, Rerouted

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xiangkun Sun, Lingkai Kong, Aoqi Zhang, Liang Zeng, Tonghan Wang

πŸ’‘ κ°œμš”

이 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 사싀적 지식을 ν¬κΈ°ν•˜λ„λ‘ 섀득될 수 μžˆλŠ” μ·¨μ•½μ μ˜ λ‚΄λΆ€ λ©”μ»€λ‹ˆμ¦˜μ„ 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€. 연ꡬ κ²°κ³Ό, μ†Œμˆ˜μ˜ 쀑간 계측 μ–΄ν…μ…˜ ν—€λ“œκ°€ λ‹΅λ³€ 결정에 거의 μ „μ μœΌλ‘œ κ΄€μ—¬ν•˜λ©°, 이 ν—€λ“œλ“€μ΄ λ‹΅λ³€ μ˜΅μ…˜μ„ 저차원 λ‹€λ©΄μ²΄μ˜ 꼭짓점에 ν• λ‹Ήν•˜κ³ , 섀득은 μ‚¬μ‹€μ—μ„œ 섀득 λŒ€μƒ κΌ­μ§“μ μœΌλ‘œμ˜ 이산적인 잠재 곡간 점프λ₯Ό μœ λ°œν•¨μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, μ˜μ‚¬ κ²°μ • ν—€λ“œλŠ” 증거λ₯Ό λ°”νƒ•μœΌλ‘œ μΆ”λ‘ ν•˜λŠ” 것이 μ•„λ‹ˆλΌ 주의λ ₯에 μ˜ν•΄ μ„ νƒλœ μ˜΅μ…˜ 토큰을 λ³΅μ‚¬ν•˜λ©°, 섀득은 μž…λ ₯의 섀득 ν‚€μ›Œλ“œλ‘œλΆ€ν„° 증거 λΌμš°νŒ… νŠΉμ§•μ„ κ΅¬μΆ•ν•˜λŠ” 얕은 μ–΄ν…μ…˜ ν—€λ“œμ— μ˜ν•΄ 주의λ ₯을 μž¬μ§€μ •ν•¨μœΌλ‘œμ¨ 이루어짐을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 섀득 λ©”μ»€λ‹ˆμ¦˜μ΄ μ†Œμˆ˜μ˜ νŠΉμ • μ–΄ν…μ…˜ ν—€λ“œμ— μ§‘μ€‘λ˜μ–΄ 있으며, μ΄λŠ” AI μ•ˆμ „μ„± 연ꡬ 및 λͺ¨λΈμ˜ 신뒰성을 λ†’μ΄λŠ” 데 μ€‘μš”ν•œ μ‹œμ‚¬μ μ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
섀득이 λ‹¨μˆœν•œ 신뒰도 κ°μ†Œκ°€ μ•„λ‹Œ, 잠재 κ³΅κ°„μ—μ„œμ˜ λͺ…ν™•ν•œ μ „ν™˜μž„μ„ λ°ν˜€λƒ„μœΌλ‘œμ¨ LLM의 λ‚΄λΆ€ μž‘λ™ 방식에 λŒ€ν•œ 깊이 μžˆλŠ” 이해λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 증거 λΌμš°νŒ… νŠΉμ§•μ„ 직접 μˆ˜μ •ν•˜κ±°λ‚˜ μ œκ±°ν•¨μœΌλ‘œμ¨ 섀득을 μ œμ–΄ν•  수 μžˆλ‹€λŠ” 점은 LLM의 λ³΄μ•ˆ 및 μ•…μ˜μ  μ‚¬μš© 방지에 λŒ€ν•œ μ‹€μ§ˆμ μΈ 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” νŠΉμ • LLM μ•„ν‚€ν…μ²˜μ™€ μ‹œλ‚˜λ¦¬μ˜€μ— μ΄ˆμ μ„ λ§žμΆ”κ³  μžˆμœΌλ―€λ‘œ, λ‹€μ–‘ν•œ LLM λͺ¨λΈ 및 더 λ³΅μž‘ν•œ 섀득 μ‹œλ‚˜λ¦¬μ˜€μ—μ„œμ˜ μΌλ°˜ν™” κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘