Sign In

Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution

Created by
  • Haebom
Category
Empty

μ €μž

Muhammad Umair Haider, Hammad Rizwan, Hassan Sajjad, Peizhong Ju, A. B. Siddique

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)μ—μ„œ λ°œμƒν•˜λŠ” μ‹ κ²½λ§μ˜ λ‹€μ˜μ„±(polysemanticity)으둜 인해 λ°œμƒν•˜λŠ” κ°œλ³„ 신경망-κ°œλ… μ—°κ²°μ˜ 어렀움을 ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 연ꡬ진은 κ°œλ…λ³„ 신경망 ν™œμ„±ν™” 강도가 쀑첩이 적은 λšœλ ·ν•œ 뢄포λ₯Ό ν˜•μ„±ν•œλ‹€λŠ” 점에 μ°©μ•ˆν•˜μ—¬, ν™œμ„±ν™” λ²”μœ„λ₯Ό 기반으둜 κ°œλ…μ„ ν•΄μ„ν•˜κ³  μ‘°μž‘ν•˜λŠ” NeuronLens ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 기쑴의 신경망 λ§ˆμŠ€ν‚Ή 방식보닀 λͺ©ν‘œ κ°œλ…μ„ 효과적으둜 μ‘°μž‘ν•˜λ©΄μ„œλ„ λΆ€μˆ˜μ μΈ κ°œλ… 및 λͺ¨λΈ μ„±λŠ₯ μ €ν•˜λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” μ„±κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 신경망 해석 및 μ œμ–΄μ— μžˆμ–΄ κ°œλ³„ 신경망 λ‹¨μœ„κ°€ μ•„λ‹Œ, κ°œλ…λ³„ ν™œμ„±ν™” λ²”μœ„λΌλŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό λ°©μ‹μ˜ κ°€λŠ₯성을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
NeuronLens ν”„λ ˆμž„μ›Œν¬λŠ” 기쑴의 신경망 λ§ˆμŠ€ν‚Ή 기법 λŒ€λΉ„ λΆ€μˆ˜μ μΈ 영ν–₯ 없이 νŠΉμ • κ°œλ…μ„ λ”μš± μ •λ°€ν•˜κ²Œ μ‘°μž‘ν•  수 μžˆμŒμ„ μ‹€μ¦μ μœΌλ‘œ λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ LLM μ•„ν‚€ν…μ²˜ 및 데이터셋에 λŒ€ν•œ κ΄‘λ²”μœ„ν•œ 뢄석을 톡해 μ œμ•ˆ λ°©λ²•λ‘ μ˜ μΌλ°˜ν™” κ°€λŠ₯성을 νƒμƒ‰ν•˜μ˜€μœΌλ‚˜, μ œμ‹œλœ Gaussian-like λΆ„ν¬μ˜ 일반적인 νŠΉμ„± 및 λͺ¨λ“  λ‹€μ˜μ„± 상황에 λŒ€ν•œ 적용 κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘