Sign In

Boosting deep Reinforcement Learning using pretraining with Logical Options

Created by
  • Haebom
Category
Empty

μ €μž

Zihan Ye, Phil Chau, Raban Emunds, Jannis Bluml, Cedric Derstroff, Quentin Delfosse, Oleg Arenz, Kristian Kersting

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ”₯ κ°•ν™”ν•™μŠ΅ μ—μ΄μ „νŠΈκ°€ 초반 보상 μ‹ ν˜Έμ— κ³Όλ„ν•˜κ²Œ μ§‘μ€‘ν•˜λŠ” 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 논리적 μ˜΅μ…˜μ„ ν™œμš©ν•œ 사전 ν•™μŠ΅μ„ μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆν•˜λŠ” ν•˜μ΄λΈŒλ¦¬λ“œ 계측 κ°•ν™”ν•™μŠ΅(H^2RL)은 신경망 기반 κ°•ν™”ν•™μŠ΅μ— 상징적 ꡬ쑰λ₯Ό ν†΅ν•©ν•˜μ—¬ 단기 보상 λ£¨ν”„μ—μ„œ λ²—μ–΄λ‚˜ λͺ©ν‘œ μ§€ν–₯적 행동을 μœ λ„ν•˜λ©°, μ΅œμ’… 정책은 ν™˜κ²½κ³Όμ˜ μƒν˜Έμž‘μš©μ„ 톡해 μ •μ œλ©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, 이 μ ‘κ·Ό 방식은 μž₯κΈ° μ˜μ‚¬κ²°μ •μ„ μ§€μ†μ μœΌλ‘œ κ°œμ„ ν•˜κ³  κΈ°μ‘΄ 신경망, 상징적, μ‹ κ²½-상징적 기반 λͺ¨λΈμ„ λŠ₯κ°€ν•˜λŠ” μ—μ΄μ „νŠΈλ₯Ό 생성함을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ”₯ κ°•ν™”ν•™μŠ΅μ˜ 단기 보상 편ν–₯ 문제λ₯Ό μ™„ν™”ν•˜κ³  μž₯기적인 λͺ©ν‘œ 달성을 μ΄‰μ§„ν•˜λŠ” 효과적인 사전 ν•™μŠ΅ 방법을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
기쑴의 순수 상징적 μ ‘κ·Ό λ°©μ‹μ˜ ν™•μž₯μ„± 및 연속적인 ν™˜κ²½ 적용의 어렀움을 κ·Ήλ³΅ν•˜λŠ” ν•˜μ΄λΈŒλ¦¬λ“œ μ‹ κ²½-상징적 ꡬ쑰의 κ°€λŠ₯성을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ νš¨μœ¨μ„±μ„ μž…μ¦ν•˜κΈ° μœ„ν•΄ λ‹€μ–‘ν•œ 벀치마크 ν™˜κ²½μ—μ„œμ˜ 좔가적인 검증 및 μΌλ°˜ν™” λŠ₯λ ₯ 평가가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘