haebom
Sign In
Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs
Created by
Haebom
Category
Empty
μ μ
Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena
π‘ κ°μ
λ³Έ μ°κ΅¬λ κΈ°μ‘΄ μΈμ΄ λͺ¨λΈμ λΆνμ€ν μ체 ν΄μ λ₯λ ₯μ νκ³λ₯Ό 극볡νκΈ° μν΄, λκ²°λ μΈμ΄ λͺ¨λΈμ κ²½λ μ΄λν°λ₯Ό νμ΅μν€λ μλ‘μ΄ μ κ·Ό λ°©μμ μ μν©λλ€. μ΄ νμ΅μ ν΄μ κ°λ₯μ± μν°ν©νΈ(interpretability artifacts)λ₯Ό μ΄μ©νλ©°, μ΄λ₯Ό ν΅ν΄ μΈμ΄ λͺ¨λΈ μ체λ₯Ό μμ νμ§ μκ³ λ μ λ’°ν μ μλ μ체 ν΄μμ λ¬μ±νμ΅λλ€. μ μλ λ°©λ²μ κΈ°μ‘΄ λ μ΄λΈλ³΄λ€ μ°μν μ±λ₯μ 보μ΄λ©°, λͺ¨λΈμ μ¨κ²¨μ§ μΆλ‘ κ³Όμ μ λ°νλ΄λ λ° ν¨κ³Όμ μ λλ€.
π μμ¬μ λ° νκ³
β’
λͺ¨λΈ μμ μμ΄ μ λ’°ν μ μλ μ체 ν΄μ κ°λ₯:
κ²½λ μ΄λν° νμ΅λ§μΌλ‘ μΈμ΄ λͺ¨λΈμ λκ²°μν¨ μνμμ μ λ’°μ± λμ μ체 ν΄μμ΄ κ°λ₯ν¨μ μ μ¦νμ΅λλ€.
β’
μ¨κ²¨μ§ μΆλ‘ κ³Όμ λ°κ΅΄:
ν둬ννΈλ μλ΅μ μ§μ μ μΌλ‘ λνλμ§ μλ λ€λ¨κ³ μΆλ‘ κ³Όμ μ μ€κ° μμλ₯Ό λ°νλ΄μ΄, λͺ¨λΈμ μ묡μ μΈ μΆλ‘ λ°©μμ μ΄ν΄ν μ μμ΅λλ€.
β’
λͺ¨λΈ μ€μΌμΌμ λ°λ₯Έ μ체 ν΄μ λ₯λ ₯ ν₯μ:
λͺ¨λΈ ν¬κΈ°κ° 컀μ§μλ‘ μ체 ν΄μ λ₯λ ₯μ΄ ν₯μλλ©°, μ΄λ λ¨μν λͺ¨λΈμ λ₯λ ₯μ΄ ν₯μλλ κ² μ΄μμΌλ‘ μ체 ν΄μ λ₯λ ₯μ΄ κ°μ λ¨μ μμ¬ν©λλ€.
β’
μ νλ νλΌλ―Έν°λ‘ λμ ν¨μ¨μ±:
$d_\text{model}+1$κ°μ νλΌλ―Έν°λ§μΌλ‘λ μ°μν μ±λ₯μ 보μ¬, ν¨μ¨μ μΈ μ체 ν΄μ μ루μ μΌλ‘μμ μ μ¬λ ₯μ 보μ¬μ€λλ€.
β’
λμ± λ³΅μ‘ν ν΄μ λ₯λ ₯ μ μ΄ λ° κ²μ¦:
νμ΅λ νΈν₯ 벑ν°(bias vector)λ§μΌλ‘λ μ±λ₯ ν₯μμ μλΉ λΆλΆμ μ€λͺ ν μ μμ΄, μ΄λν°μ 볡μ‘μ±κ³Ό μ±λ₯ κ°μ κ΄κ³μ λν μΆκ°μ μΈ μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage