Sign In

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Ahmet H. Guzel, Jenny Seidenschwarz, Benjamin Graham, Jonathan Sadeghi, Jeffrey Hawke, Jack Parker-Holder, Ilija Bogunovic

πŸ’‘ κ°œμš”

λ³Έ 논문은 행동 쑰건뢀 λΉ„λ””μ˜€ μ›”λ“œ λͺ¨λΈμ΄ λ“œλ¬Όμ§€λ§Œ κ³„νš 및 μ •μ±… μ„±λŠ₯에 μ€‘μš”ν•œ μ „ν™˜μ—μ„œ 신뒰성이 λ–¨μ–΄μ§„λ‹€λŠ” 문제λ₯Ό ν•΄κ²°ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ KL μ œμ•½μ„ λ°›λŠ” μ λŒ€μ  μ»€λ¦¬ν˜λŸΌμ„ μ œμ•ˆν•˜μ—¬, 행동 λΆ„ν¬μ—μ„œ 크게 λ²—μ–΄λ‚˜μ§€ μ•ŠμœΌλ©΄μ„œ 높은 였λ₯˜λ₯Ό μœ λ°œν•˜λŠ” ꢀ적을 νƒμƒ‰ν•˜κ³  이λ₯Ό 톡해 μ›”λ“œ λͺ¨λΈμ„ μ§€μ†μ μœΌλ‘œ κ°œμ„ ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ 방식은 ν¬κ·€ν•œ μ‹€νŒ¨ 사둀λ₯Ό μ•ˆμ •μ μΈ ν•™μŠ΅ μ‹ ν˜Έλ‘œ μ „ν™˜ν•˜κ³ , λͺ¨λΈ κ°œμ„ μ— 따라 ν•™μŠ΅ μ••λ ₯을 μœ μ§€ν•˜μ—¬ λ―Έν•΄κ²°λœ 약점을 효과적으둜 κ°œμ„ ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ›”λ“œ λͺ¨λΈμ˜ 취약점을 λŠ₯λ™μ μœΌλ‘œ νƒμƒ‰ν•˜κ³  이λ₯Ό ν•™μŠ΅μ— ν™œμš©ν•¨μœΌλ‘œμ¨, ν¬κ·€ν•˜μ§€λ§Œ μ€‘μš”ν•œ μ „ν™˜μ—μ„œμ˜ 견고성을 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ λŒ€μ  ν•™μŠ΅ μ‹œ 행동 μ œμ•½μ„ 톡해 λͺ¨λΈμ΄ 뢄포 μ™Έμ˜ μ˜μ—­μœΌλ‘œ κ³Όλ„ν•˜κ²Œ λ²—μ–΄λ‚˜λŠ” 것을 λ°©μ§€ν•˜κ³ , ν•™μŠ΅ λ°μ΄ν„°μ˜ μ§ˆμ„ λ†’μ—¬ μ›”λ“œ λͺ¨λΈμ˜ μΌλ°˜ν™” μ„±λŠ₯을 κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν•™μŠ΅ λ°μ΄ν„°μ˜ 편ν–₯성을 κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄ λ‹¨μˆœνžˆ 데이터셋 크기λ₯Ό λŠ˜λ¦¬λŠ” 것 외에, μ„ νƒμ μœΌλ‘œ 정보λ₯Ό 효과적으둜 μƒμ„±ν•˜λŠ” μ „λž΅μ΄ μ€‘μš”ν•¨μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ Prioritized Adversarial Trajectory (PAT) λ²„νΌλŠ” ν•™μŠ΅ μ§„ν–‰ 상황에 따라 μš°μ„ μˆœμœ„λ₯Ό μž¬μ‘°μ •ν•˜μ—¬ νš¨μœ¨μ„±μ„ λ†’μ΄μ§€λ§Œ, μ λŒ€μ  탐색과 행동 μ •κ·œν™” κ°„μ˜ 졜적 κ· ν˜•μ„ μ°ΎλŠ” 것은 μ—¬μ „νžˆ μ€‘μš”ν•œ κ³Όμ œμž…λ‹ˆλ‹€.
πŸ‘