Sign In

One for All: A Non-Linear Transformer can Enable Cross-Domain Generalization for In-Context Reinforcement Learning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Bowen He, Juncheng Dong, Lin Lin, Xiang Cheng

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅(RL)μ—μ„œ μƒˆλ‘œμš΄ νƒœμŠ€ν¬μ— λŒ€ν•œ μΌλ°˜ν™” λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•΄, 인-μ»¨ν…μŠ€νŠΈ ν•™μŠ΅μ΄ κ°€λŠ₯ν•œ 트랜슀포머 λͺ¨λΈμ„ μ œμ•ˆν•©λ‹ˆλ‹€. 트랜슀포머λ₯Ό RKHS(Reproducing Kernel Hilbert Space)μ—μ„œμ˜ νšŒκ·€λ‘œ ν•΄μ„ν•˜μ—¬, λ‹€λ₯Έ λ„λ©”μΈμ˜ νƒœμŠ€ν¬λ“€μ— λŒ€ν•œ κ°€μΉ˜ ν•¨μˆ˜λ₯Ό 곡유 κ°€μ€‘μΉ˜λ‘œ ν‘œν˜„ν•  수 μžˆμŒμ„ λ³΄μž…λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³ΌλŠ” μ œμ•ˆλœ 해석을 μ§€μ§€ν•˜λ©°, μ—¬λŸ¬ MetaWorld λ„λ©”μΈμ—μ„œ μ‹œκ°„μ°¨ ν•™μŠ΅ λͺ©ν‘œμ˜ μˆ˜λ ΄μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
인-μ»¨ν…μŠ€νŠΈ ν•™μŠ΅μ„ 톡해 λͺ…μ‹œμ μΈ νŒŒλΌλ―Έν„° μ—…λ°μ΄νŠΈ 없이도 μƒˆλ‘œμš΄ RL νƒœμŠ€ν¬μ— λŒ€ν•œ λΉ λ₯Έ 적응이 κ°€λŠ₯함을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λΉ„μ„ ν˜• νŠΈλžœμŠ€ν¬λ¨Έμ™€ 컀널 기반 μ‹œκ°„μ°¨ ν•™μŠ΅ κ°„μ˜ 연결고리λ₯Ό μ œμ‹œν•¨μœΌλ‘œμ¨, RL μΌλ°˜ν™” λ¬Έμ œμ— λŒ€ν•œ μƒˆλ‘œμš΄ 이둠적 관점을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λͺ¨λΈμ΄ λ‹€μ–‘ν•œ λ©”νƒ€μ›”λ“œ(MetaWorld) ν™˜κ²½μ—μ„œ μ„±κ³΅μ μœΌλ‘œ μž‘λ™ν•¨μ„ μ‹€ν—˜μ μœΌλ‘œ κ²€μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
RKHS λ‚΄μ—μ„œλ§Œ μΌλ°˜ν™”κ°€ 보μž₯λœλ‹€λŠ” 점은 ν–₯ν›„ λ‹€μ–‘ν•œ λ„λ©”μΈμœΌλ‘œ ν™•μž₯ν•˜κΈ° μœ„ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•¨μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
πŸ‘