haebom
Sign In
Beyond the Black Box: Interpretability of Agentic AI Tool Use
Created by
Haebom
Category
Empty
μ μ
Hariom Tatsat, Ariye Shater
π‘ κ°μ
AI μμ΄μ νΈμ κΈ°μ μν¬νλ‘μ° λ°°ν¬κ° μ§μ°λλ μ΄μ λ λꡬ μ¬μ© μ€ν¨μ μ§λ¨ λ° μ μ΄κ° μ΄λ ΅κΈ° λλ¬Έμ λλ€. λ³Έ μ°κ΅¬λ Sparse Autoencoders(SAEs)μ μ ν νλ‘λΈλ₯Ό κΈ°λ°μΌλ‘ νλ κΈ°κ³μ ν΄μ λꡬλ₯Ό μ μνμ¬, μμ΄μ νΈκ° νλνκΈ° μ μ λ΄λΆ μνλ₯Ό λΆμνκ³ λꡬ νΈμΆ νμμ±κ³Ό λꡬ νλμ κ²°κ³Όμ μ€μμ±μ μΆλ‘ ν©λλ€. μ΄λ₯Ό ν΅ν΄ μμ΄μ νΈ μ€ν¨μ κ·Όλ³Έ μμΈμ νμ νκ³ μ€μ©μ μΈ λ΄λΆ κ°μμ±μ μ 곡ν©λλ€.
π μμ¬μ λ° νκ³
β’
AI μμ΄μ νΈμ λꡬ μ¬μ© μ€ν¨ μμΈμ λ΄λΆμ μΌλ‘ λΆμνκ³ μμΈ‘ν μ μλ μλ‘μ΄ κΈ°κ³μ ν΄μ νλ μμν¬λ₯Ό μ μν©λλ€.
β’
κΈ΄ μλ리μ€μμ λ°μνλ μ‘°κΈ° λꡬ μ¬μ© μ€λ₯λ‘ μΈν λΉμ© μ¦κ°, ν ν° μλͺ¨, μμ λ° λ³΄μ μν λ±μ μ€μ΄λ λ° κΈ°μ¬ν μ μμ΅λλ€.
β’
λ³Έ μ°κ΅¬λ μΈλΆ νκ°λ₯Ό λ체νλ κ²μ΄ μλλΌ, λͺ¨λΈμ λ΄λΆ μ νΈμ λν κ°μμ±μ μΆκ°νλ κ²μ λͺ©νλ‘ νλ©°, ν₯ν λ 볡μ‘ν μμ΄μ νΈ μμ€ν μ λν ν΄μ κ°λ₯μ± μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage