Sign In

Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs

Created by
  • Haebom
Category
Empty

μ €μž

Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” κΈ°μ‘΄ μ–Έμ–΄ λͺ¨λΈμ˜ λΆˆν™•μ‹€ν•œ 자체 해석 λŠ₯λ ₯의 ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄, λ™κ²°λœ μ–Έμ–΄ λͺ¨λΈμ— κ²½λŸ‰ μ–΄λŒ‘ν„°λ₯Ό ν•™μŠ΅μ‹œν‚€λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ•ˆν•©λ‹ˆλ‹€. 이 ν•™μŠ΅μ€ 해석 κ°€λŠ₯μ„± μ•„ν‹°νŒ©νŠΈ(interpretability artifacts)λ₯Ό μ΄μš©ν•˜λ©°, 이λ₯Ό 톡해 μ–Έμ–΄ λͺ¨λΈ 자체λ₯Ό μˆ˜μ •ν•˜μ§€ μ•Šκ³ λ„ μ‹ λ’°ν•  수 μžˆλŠ” 자체 해석을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€. μ œμ•ˆλœ 방법은 κΈ°μ‘΄ λ ˆμ΄λΈ”λ³΄λ‹€ μš°μˆ˜ν•œ μ„±λŠ₯을 보이며, λͺ¨λΈμ˜ μˆ¨κ²¨μ§„ μΆ”λ‘  과정을 λ°ν˜€λ‚΄λŠ” 데 νš¨κ³Όμ μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λͺ¨λΈ μˆ˜μ • 없이 μ‹ λ’°ν•  수 μžˆλŠ” 자체 해석 κ°€λŠ₯: κ²½λŸ‰ μ–΄λŒ‘ν„° ν•™μŠ΅λ§ŒμœΌλ‘œ μ–Έμ–΄ λͺ¨λΈμ„ λ™κ²°μ‹œν‚¨ μƒνƒœμ—μ„œ μ‹ λ’°μ„± 높은 자체 해석이 κ°€λŠ₯함을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
μˆ¨κ²¨μ§„ μΆ”λ‘  κ³Όμ • 발꡴: ν”„λ‘¬ν”„νŠΈλ‚˜ 응닡에 μ§μ ‘μ μœΌλ‘œ λ‚˜νƒ€λ‚˜μ§€ μ•ŠλŠ” 닀단계 μΆ”λ‘  κ³Όμ •μ˜ 쀑간 μš”μ†Œλ₯Ό λ°ν˜€λ‚΄μ–΄, λͺ¨λΈμ˜ 암묡적인 μΆ”λ‘  방식을 이해할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λͺ¨λΈ μŠ€μΌ€μΌμ— λ”°λ₯Έ 자체 해석 λŠ₯λ ₯ ν–₯상: λͺ¨λΈ 크기가 컀질수둝 자체 해석 λŠ₯λ ₯이 ν–₯μƒλ˜λ©°, μ΄λŠ” λ‹¨μˆœνžˆ λͺ¨λΈμ˜ λŠ₯λ ₯이 ν–₯μƒλ˜λŠ” 것 μ΄μƒμœΌλ‘œ 자체 해석 λŠ₯λ ₯이 κ°œμ„ λ¨μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
μ œν•œλœ νŒŒλΌλ―Έν„°λ‘œ 높은 νš¨μœ¨μ„±: $d_\text{model}+1$개의 νŒŒλΌλ―Έν„°λ§ŒμœΌλ‘œλ„ μš°μˆ˜ν•œ μ„±λŠ₯을 보여, 효율적인 자체 해석 μ†”λ£¨μ…˜μœΌλ‘œμ„œμ˜ 잠재λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ”μš± λ³΅μž‘ν•œ 해석 λŠ₯λ ₯ μ œμ–΄ 및 검증: ν•™μŠ΅λœ 편ν–₯ 벑터(bias vector)λ§ŒμœΌλ‘œλ„ μ„±λŠ₯ ν–₯μƒμ˜ 상당 뢀뢄을 μ„€λͺ…ν•  수 μžˆμ–΄, μ–΄λŒ‘ν„°μ˜ λ³΅μž‘μ„±κ³Ό μ„±λŠ₯ κ°„μ˜ 관계에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘