Sign In

Tiny Brains, Giant Impact: Uncovering the Keystone Neurons of LLM with Just a Few Prompts

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xiangtian Ji, Yuxin Chen, Zhengzhou Cai, Xiang Wang, An Zhang, Tat-Seng Chua

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)의 λ‚΄λΆ€ μž‘λ™ 방식을 μ΄ν•΄ν•˜κΈ° μœ„ν•΄, λ‹€μ–‘ν•œ μž‘μ—…μ—μ„œ μΌκ΄€λ˜κ²Œ 높은 ν™œμ„±λ„λ₯Ό λ³΄μ΄λŠ” μ†Œμˆ˜μ˜ λ‰΄λŸ°, 즉 '핡심 λ‰΄λŸ°(keystone neurons)'을 λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ 핡심 λ‰΄λŸ°μ„ μ œκ±°ν•˜λ©΄ λͺ¨λΈμ˜ μ„±λŠ₯이 κΈ‰κ²©νžˆ μ €ν•˜λ˜λŠ” 것을 ν™•μΈν–ˆμœΌλ©°, 이듀은 사전 ν•™μŠ΅ λ‹¨κ³„μ—μ„œλΆ€ν„° λͺ¨λΈμ˜ λŠ₯λ ₯에 결정적인 역할을 ν•˜λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€. λ³Έ 논문은 핡심 λ‰΄λŸ°λ§Œμ„ λŒ€μƒμœΌλ‘œ ν•˜λŠ” 효율적인 지도 ν•™μŠ΅ λ―Έμ„Έ μ‘°μ •(supervised fine-tuning) 기법을 μ œμ•ˆν•˜λ©°, μ΄λŠ” 전체 λͺ¨λΈμ„ λ―Έμ„Έ μ‘°μ •ν•˜λŠ” 것과 μœ μ‚¬ν•˜κ±°λ‚˜ 더 λ‚˜μ€ μ„±λŠ₯을 λ³΄μ΄λ©΄μ„œλ„ λ‹€λ₯Έ λŠ₯λ ₯ μ˜μ—­μ—μ„œμ˜ μ„±λŠ₯ μ €ν•˜λ₯Ό μ΅œμ†Œν™”ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM의 λ³΅μž‘ν•œ λŠ₯λ ₯을 μ„€λͺ…ν•˜λŠ” 데 μžˆμ–΄ μ†Œμˆ˜μ˜ 핡심 λ‰΄λŸ°μ΄ 쀑좔적인 역할을 ν•œλ‹€λŠ” 점을 λ°ν˜”μŠ΅λ‹ˆλ‹€.
β€’
핡심 λ‰΄λŸ°λ§Œμ„ μ„ νƒμ μœΌλ‘œ ν•™μŠ΅μ‹œν‚€λŠ” 것이 λͺ¨λΈ μ„±λŠ₯ ν–₯상과 νš¨μœ¨μ„± μ¦λŒ€μ— νš¨κ³Όμ μž„μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” 주둜 Transformer 기반의 κ°œλ°©ν˜• κ°€μ€‘μΉ˜ λͺ¨λΈμ„ λŒ€μƒμœΌλ‘œ ν•˜μ˜€μœΌλ©°, λ‹€λ₯Έ μ•„ν‚€ν…μ²˜λ‚˜ νŠΉμ • κ³Όμ œμ— λŒ€ν•œ μΌλ°˜ν™” κ°€λŠ₯μ„± 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘