λ³Έ λ
Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ νμ²λ¦¬ μ€λͺ
κ°λ₯μ±(interpretability)μ λν λμ κ³μ° λΉμ© λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, ν¨μ¨μ μΈ λͺ¨λΈμ μ¬μ©νμ¬ LLMμ μμ¬ κ²°μ κ²½κ³λ₯Ό κ·Όμ¬νλ κ²½μ μ μΈ νλ‘μ(proxy) λͺ¨λΈ νλ μμν¬λ₯Ό μ μν©λλ€. μ μλ λ©μ»€λμ¦μ ν΅κ³μ μΌλ‘ λ‘컬 μ λ ¬μ κ²μ¦νκ³ , μ΄λ₯Ό ν΅ν΄ LLM μ΅μ νλ₯Ό μν μ€ν κ°λ₯ν μ€λͺ
κ°λ₯μ±μ μ 곡ν©λλ€. μ€ν κ²°κ³Ό, νλ‘μ μ€λͺ
μ LLM λΉμ©μ 11%λ§μΌλ‘ 90% μ΄μμ μΆ©μ€λλ₯Ό λ¬μ±νλ©°, ν둬ννΈ μμΆ λ° μ
μ± λ°μ΄ν° μ κ±°μ κ°μ μ€μ μμ©μμ μ μ©μ±μ μ
μ¦νμ΅λλ€.