Sign In

Exploitation Without Deception: Dark Triad Feature Steering Reveals Separable Antisocial Circuits in Language Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Cameron Berg, Roshni Lulla

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” Llama-3.3-70B-Instruct λͺ¨λΈμ—μ„œ 닀크 νŠΈλΌμ΄μ–΄λ“œ(λ§ˆν‚€μ•„λ²¨λ¦¬μ¦˜, λ‚˜λ₯΄μ‹œμ‹œμ¦˜, μ‚¬μ΄μ½”νŒ¨μŠ€) 성격 νŠΉμ„±μ„ μ¦ν­μ‹œν‚€κΈ° μœ„ν•΄ ν¬μ†Œ μžλ™ 인코더(SAE) νŠΉμ§• μ‘°ν–₯ 기법을 ν™œμš©ν–ˆμŠ΅λ‹ˆλ‹€. 결과적으둜 λͺ¨λΈμ€ 인지적 곡감 λŠ₯λ ₯은 μœ μ§€ν•œ 채 착취적이고 곡격적이며 λ¬΄κ°κ°ν•œ 행동을 크게 λ³΄μ˜€μœΌλ©°, μ΄λŠ” 인간 닀크 νŠΈλΌμ΄μ–΄λ“œ μ§‘λ‹¨μ˜ νŠΉμ§•μ μΈ 곡감 λŠ₯λ ₯ 뢄리λ₯Ό μž¬ν˜„ν•©λ‹ˆλ‹€. 특히, μ „λž΅μ  κΈ°λ§Œμ€ μ–΄λ– ν•œ νŠΉμ§•μ—μ„œλ„ 영ν–₯을 λ°›μ§€ μ•Šμ•„, 착취와 기만이 μ–Έμ–΄ λͺ¨λΈ λ‚΄μ—μ„œ 뢄리 κ°€λŠ₯ν•œ 계산 경둜λ₯Ό 톡해 μž‘λ™ν•  수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)μ—μ„œ λ‚˜νƒ€λ‚˜λŠ” λ°˜μ‚¬νšŒμ  μ„±ν–₯은 λ‹¨μΌν•œ ꡬ성이 μ•„λ‹Œ, 뢄리 κ°€λŠ₯ν•œ ꡬ성 μš”μ†Œλ“€λ‘œ 이루어져 μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
착취와 κΈ°λ§Œμ€ LLM λ‚΄μ—μ„œ λ³„κ°œμ˜ 계산 경둜λ₯Ό λ”°λ₯Ό κ°€λŠ₯성이 λ†’μœΌλ©°, μ΄λŠ” μ΄λŸ¬ν•œ 행동을 μ΄ν•΄ν•˜κ³  μ œμ–΄ν•˜λŠ” 데 μ€‘μš”ν•œ ν•¨μ˜λ₯Ό κ°€μ§‘λ‹ˆλ‹€.
β€’
νŠΉμ§• 발견 방법둠(λŒ€μ‘° ν•™μŠ΅ vs. 의미둠적 검색)이 λͺ¨λΈμ˜ 행동 λ³€ν™” κΉŠμ΄μ— 영ν–₯을 λ―ΈμΉ  수 μžˆμŒμ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μΌλ°˜ν™” κ°€λŠ₯μ„± 및 λ‹€λ₯Έ LLMμ—μ„œμ˜ μ μš©μ— λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘