Sign In

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Jiaming Li, Chenyu Zhu, Nanxi Yi, Youjun Bao, Li Sun, Quanying Lv, Xiang Fang, Daizong Liu, Jianjun Li, Kun He, Bowen Zhou, Zhiyuan Ma

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ°•ν™”ν•™μŠ΅ 기반 ν™•μ‚° λͺ¨λΈ μ •λ ¬μ—μ„œ λ°œμƒν•˜λŠ” 보상 ν•΄ν‚Ή 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ œμ•ˆλœ TMPO (Trajectory Matching Policy Optimization) 방법을 μ†Œκ°œν•©λ‹ˆλ‹€. TMPOλŠ” 슀칼라 보상 κ·ΉλŒ€ν™” λŒ€μ‹  ꢀ적 μˆ˜μ€€μ˜ 보상 뢄포λ₯Ό μΌμΉ˜μ‹œν‚€λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 λ„μž…ν•˜μ—¬, 생성 λ‹€μ–‘μ„± μ €ν•˜μ™€ λͺ¨λ“œ λΆ•κ΄΄ ν˜„μƒμ„ μ™„ν™”ν•©λ‹ˆλ‹€. λ‹€μ–‘ν•œ μ •λ ¬ μž‘μ—…μ—μ„œ TMPOλŠ” 생성 닀양성을 9.1% ν–₯μƒμ‹œν‚€κ³ , 보상과 λ‹€μ–‘μ„± κ°„μ˜ 졜적의 κ· ν˜•μ„ λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ꢀ적 μˆ˜μ€€μ˜ 보상 뢄포 맀칭을 톡해 ν™•μ‚° λͺ¨λΈ μ •λ ¬μ˜ λ‹€μ–‘μ„±κ³Ό νš¨μœ¨μ„±μ„ 크게 κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
TMPOλŠ” 보상 ν•΄ν‚Ή 문제λ₯Ό 근본적으둜 ν•΄κ²°ν•˜μ—¬ μƒμ„±λ¬Όμ˜ ν’ˆμ§ˆκ³Ό 신뒰도λ₯Ό λ†’μž…λ‹ˆλ‹€.
β€’
λŒ€κ·œλͺ¨ λͺ¨λΈ ν•™μŠ΅ μ‹œ 동적 ν™•λ₯  트리 μƒ˜ν”Œλ§ 기법을 ν™œμš©ν•˜μ—¬ 계산 νš¨μœ¨μ„±μ„ 높일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ˜ ν•œκ³„μ μ€ λ‹€μ–‘ν•œ μ‘°κ±΄μ—μ„œμ˜ λ³΅μž‘ν•œ ν…μŠ€νŠΈ λ Œλ”λ§ μž‘μ—…μ— λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘