haebom
Sign In
PROWL: Prioritized Regret-Driven Optimization for World Model Learning
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Ahmet H. G
uzel, Jenny Seidenschwarz, Benjamin Graham, Jonathan Sadeghi, Jeffrey Hawke, Jack Parker-Holder, Ilija Bogunovic
π‘ κ°μ
λ³Έ λ Όλ¬Έμ νλ μ‘°κ±΄λΆ λΉλμ€ μλ λͺ¨λΈμ΄ λλ¬Όμ§λ§ κ³ν λ° μ μ± μ±λ₯μ μ€μν μ νμμ μ λ’°μ±μ΄ λ¨μ΄μ§λ€λ λ¬Έμ λ₯Ό ν΄κ²°ν©λλ€. μ΄λ₯Ό μν΄ KL μ μ½μ λ°λ μ λμ 컀리νλΌμ μ μνμ¬, νλ λΆν¬μμ ν¬κ² λ²μ΄λμ§ μμΌλ©΄μ λμ μ€λ₯λ₯Ό μ λ°νλ κΆ€μ μ νμνκ³ μ΄λ₯Ό ν΅ν΄ μλ λͺ¨λΈμ μ§μμ μΌλ‘ κ°μ ν©λλ€. μ΄λ¬ν λ°©μμ ν¬κ·ν μ€ν¨ μ¬λ‘λ₯Ό μμ μ μΈ νμ΅ μ νΈλ‘ μ ννκ³ , λͺ¨λΈ κ°μ μ λ°λΌ νμ΅ μλ ₯μ μ μ§νμ¬ λ―Έν΄κ²°λ μ½μ μ ν¨κ³Όμ μΌλ‘ κ°μ ν©λλ€.
π μμ¬μ λ° νκ³
β’
μλ λͺ¨λΈμ μ·¨μ½μ μ λ₯λμ μΌλ‘ νμνκ³ μ΄λ₯Ό νμ΅μ νμ©ν¨μΌλ‘μ¨, ν¬κ·νμ§λ§ μ€μν μ νμμμ κ²¬κ³ μ±μ ν¬κ² ν₯μμν¬ μ μμ΅λλ€.
β’
μ λμ νμ΅ μ νλ μ μ½μ ν΅ν΄ λͺ¨λΈμ΄ λΆν¬ μΈμ μμμΌλ‘ κ³Όλνκ² λ²μ΄λλ κ²μ λ°©μ§νκ³ , νμ΅ λ°μ΄ν°μ μ§μ λμ¬ μλ λͺ¨λΈμ μΌλ°ν μ±λ₯μ κ°μ ν μ μμ΅λλ€.
β’
νμ΅ λ°μ΄ν°μ νΈν₯μ±μ 극볡νκΈ° μν΄ λ¨μν λ°μ΄ν°μ ν¬κΈ°λ₯Ό λ리λ κ² μΈμ, μ νμ μΌλ‘ μ 보λ₯Ό ν¨κ³Όμ μΌλ‘ μμ±νλ μ λ΅μ΄ μ€μν¨μ μμ¬ν©λλ€.
β’
μ μλ Prioritized Adversarial Trajectory (PAT) λ²νΌλ νμ΅ μ§ν μν©μ λ°λΌ μ°μ μμλ₯Ό μ¬μ‘°μ νμ¬ ν¨μ¨μ±μ λμ΄μ§λ§, μ λμ νμκ³Ό νλ μ κ·ν κ°μ μ΅μ κ· νμ μ°Ύλ κ²μ μ¬μ ν μ€μν κ³Όμ μ λλ€.
PDF 보기
Made with Slashpage