Sign In

A Measure-Theoretic Analysis of Reasoning: Structural Generalization and Approximation Limits

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yuyang Zhang, Yifu Zhang, Xuehai Zhou, Xiaoyin Chen

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ–Έμ–΄ λͺ¨λΈ(LLM)의 μΆ”λ‘  λŠ₯λ ₯, 특히 뢄포 μ™Έ(OOD) μΌλ°˜ν™”μ˜ 이둠적 κΈ°λ°˜μ„ 밝히기 μœ„ν•΄ 졜적 μˆ˜μ†‘ 이둠을 ν™œμš©ν•©λ‹ˆλ‹€. 이산적인 μΆ”λ‘  과정을 연속적인 κ³΅κ°„μœΌλ‘œ νˆ¬μ˜ν•˜κ³  Wasserstein-1 거리λ₯Ό μ‚¬μš©ν•˜μ—¬ 도메인 λ³€ν™”λ₯Ό μ •λŸ‰ν™”ν•˜λ©°, 이λ₯Ό 톡해 μ•„ν‚€ν…μ²˜μ˜ λ¦½μ‹œμΈ  연속성과 ν•¨μˆ˜ 근사 ν•œκ³„λ₯Ό λΆ„μ„ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ 뢄석을 톡해 μœ„μΉ˜ 의쑴적 μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ˜ ν•œκ³„λ₯Ό μ§€μ ν•˜κ³ , 순차적 λ°±νŠΈλž˜ν‚Ήμ„ Dyck-$k$ μ–Έμ–΄λ‘œ λ§€ν•‘ν•˜μ—¬ νŠΉμ • 트랜슀포머 ꡬ쑰의 회둜 깊이 ν•˜ν•œμ„ μ„ μ œμ‹œν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μœ„μΉ˜ 의쑴적 μ–΄ν…μ…˜(예: μ ˆλŒ€ μœ„μΉ˜ 인코딩)은 μ‹œν”„νŠΈ λΆˆλ³€μ„±μ„ λ³΄μ‘΄ν•˜μ§€ λͺ»ν•˜μ—¬ OOD μΌλ°˜ν™” μ„±λŠ₯ μ €ν•˜λ₯Ό μœ λ°œν•˜λŠ” 반면, μ‹œν”„νŠΈ λΆˆλ³€ λ©”μ»€λ‹ˆμ¦˜(예: Rotary Embeddings)은 이λ₯Ό λ³΄μ‘΄ν•˜μ—¬ 였λ₯˜λ₯Ό μ œν•œν•©λ‹ˆλ‹€.
β€’
순차적 λ°±νŠΈλž˜ν‚Ήμ„ Dyck-$k$ μ–Έμ–΄λ‘œ λ§€ν•‘ν•˜μ—¬ $\text{TC}^0$ νŠΈλžœμŠ€ν¬λ¨Έμ— λŒ€ν•œ μ—„κ²©ν•œ 회둜 깊이 ν•˜ν•œμ„ μ„ μ„€μ •ν•˜λ©°, ν‘œν˜„ λΆ•κ΄΄λ₯Ό ν”Όν•˜κΈ° μœ„ν•΄ 물리적 λ ˆμ΄μ–΄ 깊이 ν™•μž₯이 ν•„μˆ˜μ μž„μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
Barron κ³΅κ°„μ—μ„œμ˜ 근사 ν•œκ³„λ‘œ 인해 ν‘œν˜„ λ„ˆλΉ„ ν™•μž₯이 이λ₯Ό μš°νšŒν•  수 μ—†μœΌλ©°, λ”°λΌμ„œ λ¦½μ‹œμΈ  연속성과 회둜 깊이 ν™•μž₯이 OOD μΌλ°˜ν™” μ„±λŠ₯에 μ€‘μš”ν•œ μš”μ†Œμž„μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ 이둠적 뢄석은 54κ°€μ§€ 트랜슀포머 ꡬ성에 λŒ€ν•œ μ‘°ν•© 탐색 평가λ₯Ό 톡해 κ²€μ¦λ˜μ—ˆμœΌλ©°, μΌλ°˜ν™” μœ„ν—˜μ΄ Wasserstein 도메인 이동에 따라 λ‹¨μ‘°μ μœΌλ‘œ μ €ν•˜λ¨μ„ μž…μ¦ν•©λ‹ˆλ‹€.
πŸ‘