Daily Arxiv

μ „ μ„Έκ³„μ—μ„œ λ°œκ°„λ˜λŠ” 인곡지λŠ₯ κ΄€λ ¨ 논문을 μ •λ¦¬ν•˜λŠ” νŽ˜μ΄μ§€ μž…λ‹ˆλ‹€.
λ³Έ νŽ˜μ΄μ§€λŠ” Google Geminiλ₯Ό ν™œμš©ν•΄ μš”μ•½ μ •λ¦¬ν•˜λ©°, λΉ„μ˜λ¦¬λ‘œ 운영 λ©λ‹ˆλ‹€.
논문에 λŒ€ν•œ μ €μž‘κΆŒμ€ μ €μž 및 ν•΄λ‹Ή 기관에 있으며, 곡유 μ‹œ 좜처만 λͺ…κΈ°ν•˜λ©΄ λ©λ‹ˆλ‹€.

Sparse Attention Post-Training for Mechanistic Interpretability

Created by
  • Haebom
Category
Empty

μ €μž

Florent Draye, Anson Lei, Ingmar Posner, Bernhard Scholkopf

πŸ’‘ κ°œμš”

λ³Έ 논문은 트랜슀포머 λͺ¨λΈμ˜ μ„±λŠ₯ μ €ν•˜ 없이 μ–΄ν…μ…˜ 연결성을 ν¬μ†Œν•˜κ²Œ λ§Œλ“œλŠ” κ°„λ‹¨ν•œ 사후 ν›ˆλ ¨ 방법을 μ œμ‹œν•œλ‹€. μ œν•œλœ 손싀 ν•¨μˆ˜ ν•˜μ—μ„œ μœ μ—°ν•œ ν¬μ†Œμ„± μ •κ·œν™”λ₯Ό μ μš©ν•˜μ—¬ μ΅œλŒ€ 10μ–΅ 개의 νŒŒλΌλ―Έν„°λ₯Ό κ°€μ§„ λͺ¨λΈμ—μ„œ μ›λž˜ 사전 ν›ˆλ ¨ 손싀을 μœ μ§€ν•˜λ©΄μ„œ μ–΄ν…μ…˜ μ—°κ²°μ˜ μ•½ 0.3%만 μœ μ§€ν•  수 μžˆμŒμ„ μž…μ¦ν–ˆλ‹€. μ΄λŸ¬ν•œ ν¬μ†Œμ„±μ€ 계산 νš¨μœ¨μ„±μ„ μœ„ν•œ 기쑴의 ν¬μ†Œ μ–΄ν…μ…˜ 방법과 달리 λͺ¨λΈμ˜ 해석 κ°€λŠ₯성을 λ†’μ΄λŠ” ꡬ쑰적 μ‚¬μ „μœΌλ‘œ μž‘μš©ν•œλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν¬μ†Œ μ–΄ν…μ…˜μ€ 트랜슀포머 λͺ¨λΈμ˜ μ„±λŠ₯을 μœ μ§€ν•˜λ©΄μ„œ λͺ¨λΈ ꡬ쑰λ₯Ό λŒ€ν­ λ‹¨μˆœν™”ν•˜μ—¬ 해석 κ°€λŠ₯성을 ν–₯μƒμ‹œν‚¬ 수 μžˆλ‹€.
β€’
ν¬μ†Œ μ–΄ν…μ…˜μ€ νŠΉμ • μž‘μ—…μ— ν•„μš”ν•œ ꡬ성 μš”μ†Œ(μ–΄ν…μ…˜ ν—€λ“œ, MLP)와 κ·Έ 연결을 μ€„μ—¬μ„œ, 계산 과정이 보닀 λͺ…ν™•ν•˜κ²Œ νŒŒμ•…λ  수 μžˆλ„λ‘ ν•œλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” ν¬μ†Œ μ–΄ν…μ…˜μ΄ λͺ¨λΈμ˜ 쀑볡성을 쀄여 ꡬ쑰λ₯Ό λ‹¨μˆœν™”ν•  수 μžˆμŒμ„ μ‹œμ‚¬ν•˜μ§€λ§Œ, ν¬μ†Œμ„± μ •κ·œν™” λ°©λ²•μ˜ μ΅œμ ν™” 및 λ‹€μ–‘ν•œ λͺ¨λΈ μ•„ν‚€ν…μ²˜μ— λŒ€ν•œ 적용 κ°€λŠ₯μ„± μ—°κ΅¬λŠ” ν–₯ν›„ 과제둜 λ‚¨μ•„μžˆλ‹€.
πŸ‘