λ³Έ λ
Όλ¬Έμ μλ‘ λ€λ₯Έ λν μΈμ΄ λͺ¨λΈ(LLM) κ°μ νλ λ°©ν₯(behavioral directions)μ λΉκ΅νκ³ μ μ΄νλ λ° λ°μνλ μ΄λ €μμ ν΄κ²°νκΈ° μν΄, κ° λͺ¨λΈμ μλ νν(hidden representations)μ 곡μ λ μ΅μ»€ μ’ν 곡κ°(Anchor Coordinate Space, ACS)μΌλ‘ λ§€ννλ μ΅μ»€-νλ‘μ μ
(anchor-projection) νλ μμν¬λ₯Ό μ μν©λλ€. μ μλ λ°©λ²λ‘ μ ν΅ν΄ λ€μν λͺ¨λΈ κ³μ΄μμ μΆμΆλ νλ λ°©ν₯μ ACSμ ν¬μνκ³ νκ· ννμ¬ νμ€νλ λ°©ν₯(canonical direction)μ μμ±νλ©°, μ΄λ μλ‘μ΄ λͺ¨λΈμμλ νμΈνλ μμ΄ μ¬κ΅¬μ±λμ΄ μ μ΄λ μ μμ΅λλ€. μ΄λ₯Ό ν΅ν΄ Llama, Qwen, Mistral, Phi λͺ¨λΈ κ³μ΄μμ 10κ°μ§ νλ μΆμ λν λ°©ν₯μ±μ΄ ACSμμ κ°νκ² μΌμΉν¨μ λ°κ²¬νμΌλ©°, μ΄λ λ€μ΄μ€νΈλ¦Ό νμ€ν¬μμλ μ±κ³΅μ μΌλ‘ μ μ΄λ¨μ μ
μ¦νμ΅λλ€.