Sign In

Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zeyuan Wang, Da Li, Yulin Chen, Yuehu Gong, Yanming Guo, Ye Shi, Liang Bai, Tianyuan Yu, Yanwei Fu

πŸ’‘ κ°œμš”

λ³Έ 논문은 온라인 μ˜€ν”„ν΄λ¦¬μ‹œ κ°•ν™”ν•™μŠ΅μ—μ„œ λ°œμƒν•˜λŠ” μ •μ±… ν΄λž˜μŠ€μ™€ μ—…λ°μ΄νŠΈ κ·œμΉ™ κ°„μ˜ 연관성을 닀룬닀. 기쑴의 κ°€μš°μ‹œμ•ˆ 정책은 닀쀑 λͺ¨λ“œ 행동 뢄포 ν‘œν˜„μ— 어렀움을 κ²ͺκ³ , 생성 정책은 반볡 μƒ˜ν”Œλ§μ΄λ‚˜ 닀루기 μ–΄λ €μš΄ μ—”νŠΈλ‘œν”Ό μΆ”μ • 문제λ₯Ό κ°€μ§€λŠ” 반면, λ³Έ μ—°κ΅¬μ—μ„œλŠ” κ°€μš°μ‹œμ•ˆ λ…Έμ΄μ¦ˆλ₯Ό MeanFlow λ³€ν™˜μ„ 톡해 ν–‰λ™μœΌλ‘œ λ§€ν•‘ν•˜λŠ” 'Stochastic MeanFlow Policies(SMFP)'λΌλŠ” μƒˆλ‘œμš΄ 단일 μŠ€ν… 생성 μ •μ±… 클래슀λ₯Ό μ œμ•ˆν•œλ‹€. SMFPλŠ” 닀루기 μ‰¬μš΄ μ—”νŠΈλ‘œν”Ό λŒ€λ¦¬κ°’μ„ μ œκ³΅ν•˜λ©°, νƒν—˜μ μ΄λ©΄μ„œλ„ μ•ˆμ •μ μΈ μ •μ±… κ°œμ„ μ„ μœ„ν•œ ν†΅ν•©λœ λͺ©ν‘œ ν•˜μ—μ„œ μ˜€ν”„ν΄λ¦¬μ‹œ 미러 ν•˜κ°•(mirror descent)으둜 ν›ˆλ ¨λ  수 μžˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
νƒν—˜κ³Ό μ•ˆμ •μ„±μ˜ κ· ν˜•: μ—”νŠΈλ‘œν”Ό μ •κ·œν™”μ™€ 미러 ν•˜κ°• μ œμ•½μ„ κ²°ν•©ν•˜μ—¬ νƒν—˜μ„ μž₯λ €ν•˜λ©΄μ„œλ„ μ •μ±… κ°œμ„  과정을 μ•ˆμ •ν™”μ‹œν‚€λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•œλ‹€.
β€’
효율적인 생성 μ •μ±…: 단일 μŠ€ν… μΆ”λ‘  νš¨μœ¨μ„±μ„ μœ μ§€ν•˜λ©΄μ„œλ„ κΈ°μ‘΄ κ°€μš°μ‹œμ•ˆ μ •μ±… 및 λ‹€λ₯Έ 생성 μ •μ±… 기반 방법둠 λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 MuJoCo λ²€μΉ˜λ§ˆν¬μ—μ„œ μž…μ¦ν–ˆλ‹€.
β€’
닀쀑 λͺ¨λ“œ 뢄포 ν‘œν˜„ κ°œμ„ : MeanFlow λ³€ν™˜μ„ 톡해 닀쀑 λͺ¨λ“œ 행동 뢄포λ₯Ό 효과적으둜 ν‘œν˜„ν•  수 μžˆλŠ” 생성 μ •μ±… 클래슀의 κ°€λŠ₯성을 보여쀀닀.
β€’
μ—”νŠΈλ‘œν”Ό λŒ€λ¦¬κ°’μ˜ μ •ν™•μ„±: μ œμ•ˆλœ μ—”νŠΈλ‘œν”Ό λŒ€λ¦¬κ°’μ΄ μ‹€μ œ μ—”νŠΈλ‘œν”Όμ™€ μ–Όλ§ˆλ‚˜ κ·Όμ ‘ν•˜λ©°, 이둜 μΈν•œ μ„±λŠ₯ μ €ν•˜λ‚˜ κ³Όμ΅œμ ν™” κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•  수 μžˆλ‹€.
πŸ‘