Sign In

Tape: A Cellular Automata Benchmark for Evaluating Rule-Shift Generalization in Reinforcement Learning

Created by
  • Haebom
Category
Empty

μ €μž

Enze Pan

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” κ°•ν™”ν•™μŠ΅μ—μ„œ 동적 ν™˜κ²½ 변화에 λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 벀치마크인 'Tape'λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. TapeλŠ” κ΄€μ°°-행동 μΈν„°νŽ˜μ΄μŠ€λ₯Ό κ³ μ •μ‹œν‚¨ 채, 였직 잠재적인 κ·œμΉ™ λ³€ν™”(dynamics shift)λ§Œμ„ λΆ„λ¦¬ν•˜μ—¬ μΈ‘μ •ν•¨μœΌλ‘œμ¨ out-of-distribution(OOD) μΌλ°˜ν™” μ„±λŠ₯ 진단을 μš©μ΄ν•˜κ²Œ ν•©λ‹ˆλ‹€. 연ꡬ κ²°κ³Ό, λ‹€μ–‘ν•œ κ°•ν™”ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜λ“€μ΄ κ·œμΉ™ 변화에 λŒ€ν•΄ μΌκ΄€λ˜κ²Œ μ„±λŠ₯ μ €ν•˜λ₯Ό 보이며, 특히 μ£ΌκΈ°μ μ΄κ±°λ‚˜ 혼돈적인 κ·œμΉ™ 변화에 취약함을 ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κ°•ν™”ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜λ“€μ΄ λͺ…ν™•ν•œ ν™˜κ²½ λ³€ν™” 정보 없이 잠재적인 κ·œμΉ™ 변화에 맀우 μ·¨μ•½ν•˜λ‹€λŠ” 점을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
'Tape' λ²€μΉ˜λ§ˆν¬λŠ” κ·œμΉ™ λ³€ν™” μΌλ°˜ν™” μ„±λŠ₯을 μ²΄κ³„μ μœΌλ‘œ ν‰κ°€ν•˜κ³  μ§„λ‹¨ν•˜λŠ” 데 μœ μš©ν•œ λ„κ΅¬λ‘œ ν™œμš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ λ²€μΉ˜λ§ˆν¬λŠ” 1μ°¨μ›μ˜ λ‹¨μˆœν•œ 결정둠적 ν™˜κ²½μ„ μ‚¬μš©ν•˜λ―€λ‘œ, λ³΅μž‘ν•˜κ³  μ‹€μ œμ μΈ ν™˜κ²½μ—μ„œμ˜ κ·œμΉ™ λ³€ν™” μΌλ°˜ν™” μ„±λŠ₯을 μ™„μ „νžˆ λ°˜μ˜ν•˜μ§€λŠ” λͺ»ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘