Sign In

Transformers Provably Implement In-Context Reinforcement Learning with Policy Improvement

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Haodong Liang, Lifeng Lai

πŸ’‘ κ°œμš”

λ³Έ 논문은 νŠΈλžœμŠ€ν¬λ¨Έκ°€ λ§€κ°œλ³€μˆ˜ μ—…λ°μ΄νŠΈ 없이 ꢀ적 λ°μ΄ν„°λ‘œλΆ€ν„° ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ„ μΆ”λ‘ ν•˜κ³  μ‹€ν–‰ν•˜λŠ” μΈμ»¨ν…μŠ€νŠΈ κ°•ν™”ν•™μŠ΅(ICRL)을 μˆ˜ν–‰ν•  수 μžˆμŒμ„ 이둠적으둜 λΆ„μ„ν•©λ‹ˆλ‹€. μ„ ν˜• μ…€ν”„ μ–΄ν…μ…˜ 트랜슀포머 블둝이 μ •μ±… κ°œμ„  방법을 μ‹€μ œλ‘œ κ΅¬ν˜„ν•  수 μžˆμŒμ„ 증λͺ…ν–ˆμœΌλ©°, ν•™μŠ΅ 절차λ₯Ό μ„€κ³„ν•˜κ³  수렴 보μž₯을 졜초둜 μ œμ‹œν•˜μ—¬ 졜적 μ •μ±…μœΌλ‘œμ˜ μˆ˜λ ΄μ„ 보μž₯ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
νŠΈλžœμŠ€ν¬λ¨ΈλŠ” κΈ°μ‘΄ κ°•ν™”ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ„ λ‚΄μž¬ν™”ν•˜κ³  μ»¨ν…μŠ€νŠΈ λ‚΄μ—μ„œ μ‹€ν–‰ν•  수 μžˆλŠ” λ©”μ»€λ‹ˆμ¦˜μ„ κ°–μΆ”κ³  μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ ν•™μŠ΅ μ ˆμ°¨λŠ” ICRL λ¬Έν—Œμ—μ„œ 졜초둜 수렴 보μž₯을 μ œκ³΅ν•˜λ©°, μ΄λŠ” 트랜슀포머 기반 RL λͺ¨λΈμ˜ ν›ˆλ ¨ 및 μ„±λŠ₯ μ˜ˆμΈ‘μ— μ€‘μš”ν•œ 톡찰을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
논문은 νŠΉμ • 쑰건 ν•˜μ—μ„œλ§Œ μˆ˜λ ΄μ„ 보μž₯ν•˜λ©°, μ‹€μ œ λ³΅μž‘ν•œ ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯μ„± 및 ν™•μž₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘