Sign In

Grokking as Structural Inference: Transformers Need Bayesian Lottery Tickets

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Kai Hidajat, Solden Stoll, Joseph An

πŸ’‘ κ°œμš”

λ³Έ 논문은 트랜슀포머 λͺ¨λΈμ΄ ν›ˆλ ¨ 데이터λ₯Ό μ•”κΈ°ν•œ 후에도 수천 λ‹¨κ³„μ˜ ν›ˆλ ¨μ„ 거쳐 μΌλ°˜ν™”λ˜λŠ” ν˜„μƒ(grokking)을 λΆ„μ„ν•©λ‹ˆλ‹€. μ €μžλ“€μ€ 이λ₯Ό 주의 λ©”μ»€λ‹ˆμ¦˜(attention)이 μž‘μ—… μ˜μ‘΄μ„± κ·Έλž˜ν”„μ— λŒ€ν•œ 암묡적 베이즈 사후 ν™•λ₯ λ‘œ μž‘λ™ν•œλ‹€κ³  보고, μΌλ°˜ν™”κ°€ MLP μš©λŸ‰μ— λŒ€ν•œ 'κ³¨λ””λ½μŠ€' μ œμ•½κ³Ό λͺ¨λ“  정보 토큰에 μΆ©λΆ„ν•œ μ§ˆλŸ‰μ„ ν• λ‹Ήν•΄μ•Ό ν•˜λŠ” μƒˆλ‘œμš΄ 베이즈 ꡬ쑰적 μ‘°κ±΄μ΄λΌλŠ” 두 κ°€μ§€ 뢄리 κ°€λŠ₯ν•œ 쑰건으둜 달성됨을 λ³΄μž…λ‹ˆλ‹€. μ΄λŸ¬ν•œ λΆ„λ¦¬λŠ” μΌλ°˜ν™”λ₯Ό ꡬ쑰적 μΆ”λ‘ μ˜ μ§€μ—°μœΌλ‘œ μ„€λͺ…ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
트랜슀포머의 μΌλ°˜ν™” 지연은 λ‹¨μˆœνžˆ μš©λŸ‰μ΄λ‚˜ ν¬μ†Œμ„± 발견이 μ•„λ‹Œ, 주의 λ©”μ»€λ‹ˆμ¦˜μ˜ ꡬ쑰적 μΆ”λ‘  λŠ₯λ ₯ λΆ€μ‘±μœΌλ‘œ μ„€λͺ…될 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
베이즈 ꡬ쑰적 접근법은 기쑴의 κ·œλ²” μ΅œμ†Œν™” 이둠과 λ…λ¦½μ μœΌλ‘œ μΌλ°˜ν™”μ— ν•„μš”ν•œ 또 λ‹€λ₯Έ 쑰건을 μ œμ‹œν•˜λ©°, μ΄λŠ” "μ„€λͺ…-μ œμ™Έ" μ§€μ—°μœΌλ‘œ 이해될 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
KL 기반 ꡬ쑰적 κ°œμž…μ„ 톡해 μΌλ°˜ν™” 지연을 μš°νšŒν•  수 있으며, μ΄λŠ” κ°œμž… 강도에 λ°˜λΉ„λ‘€ν•˜λŠ” μΌλ°˜ν™” μ‹œκ°„ μŠ€μΌ€μΌλ§ 법칙을 λ”°λ¦…λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 베이즈 티켓은 μ•Œκ³ λ¦¬μ¦˜ μ‹œν€€μŠ€ μž‘μ—…μ—μ„œ 기쑴의 둜또 ν‹°μΌ“ 전솑보닀 μ„±λŠ₯이 λ™λ“±ν•˜κ±°λ‚˜ μš°μˆ˜ν•¨μ„ 보이며, ꡬ쑰와 μš©λŸ‰μ„ λΆ„λ¦¬ν•˜μ—¬ 뢄석할 수 μžˆμŒμ„ μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν•©λ‹ˆλ‹€.
πŸ‘