Sign In

Dr.LLM: Dynamic Layer Routing in LLMs

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Ahmed Heakl, Martin Gubri, Salman Khan, Sangdoo Yun, Seong Joon Oh

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 λͺ¨λ“  토큰을 λͺ¨λ“  λ ˆμ΄μ–΄λ₯Ό κ±°μΉ˜λ„λ‘ ν•˜μ—¬ λ‹¨μˆœν•œ μ§ˆμ˜μ—λŠ” λΆˆν•„μš”ν•œ 계산이 λ°œμƒν•˜κ³  λ³΅μž‘ν•œ μ§ˆμ˜μ—λŠ” 깊이 μžˆλŠ” 좔둠이 λΆ€μ‘±ν•˜λ‹€λŠ” 문제λ₯Ό μ œκΈ°ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ Dr.LLM은 사전 ν•™μŠ΅λœ LLM에 κ²½λŸ‰ λΌμš°ν„°λ₯Ό μΆ”κ°€ν•˜μ—¬ 각 λ ˆμ΄μ–΄λ₯Ό κ±΄λ„ˆλ›Έμ§€, μ‹€ν–‰ν• μ§€, λ°˜λ³΅ν• μ§€ λ™μ μœΌλ‘œ κ²°μ •ν•˜λŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. Monte Carlo Tree Search(MCTS)λ₯Ό ν™œμš©ν•œ λͺ…μ‹œμ μΈ 감독 ν•™μŠ΅μ„ 톡해 정확도λ₯Ό μœ μ§€ν•˜κ±°λ‚˜ ν–₯μƒμ‹œν‚€λ©΄μ„œ μ»΄ν“¨νŒ… μ˜ˆμ‚°μ„ μ ˆκ°ν•˜λŠ” κ³ ν’ˆμ§ˆ λ ˆμ΄μ–΄ ꡬ성을 λ„μΆœν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
Dr.LLM은 κΈ°μ‘΄ LLM의 κ°€μ€‘μΉ˜λ₯Ό λ³€κ²½ν•˜μ§€ μ•Šκ³ λ„ νš¨μœ¨μ„±κ³Ό 정확도λ₯Ό λ™μ‹œμ— ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” "ν›„μ²˜λ¦¬(retrofittable)" κ°€λŠ₯ν•œ μ ‘κ·Ό 방식을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
λͺ…μ‹œμ μΈ 감독 ν•™μŠ΅κ³Ό νŠΉμˆ˜ν•˜κ²Œ μ„€κ³„λœ λΌμš°ν„° μ•„ν‚€ν…μ²˜λŠ” κΈ°μ‘΄ 동적 깊이 λͺ¨λΈμ˜ 정확도 μ €ν•˜ 문제λ₯Ό κ·Ήλ³΅ν•˜κ³  λ‹€μ–‘ν•œ λ„λ©”μΈμ—μ„œ μš°μˆ˜ν•œ μΌλ°˜ν™” μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬λŠ” 더 λ³΅μž‘ν•œ μž‘μ—…μ΄λ‚˜ κΈ΄ μ‹œν€€μŠ€μ— λŒ€ν•œ λΌμš°ν„°μ˜ μ„±λŠ₯을 λ”μš± κ°œμ„ ν•˜κ³ , λΌμš°νŒ… κ²°μ • κ³Όμ •μ˜ 해석 κ°€λŠ₯성을 λ†’μ΄λŠ” λ°©ν–₯으둜 진행될 수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘