Sign In

Self-Correcting Text-to-Video Generation with Misalignment Detection and Localized Refinement

Created by
  • Haebom
Category
Empty

μ €μž

Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ³΅μž‘ν•œ ν…μŠ€νŠΈ μ„€λͺ…에 λŒ€ν•œ λΉ„λ””μ˜€ μƒμ„±μ—μ„œ λ°œμƒν•˜λŠ” λ―Έμ„Έν•œ ν…μŠ€νŠΈ-λΉ„λ””μ˜€ 뢈일치 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ VideoRepairλΌλŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•œλ‹€. VideoRepairλŠ” ν›ˆλ ¨ 없이도 ν…μŠ€νŠΈμ™€ λΉ„λ””μ˜€ κ°„μ˜ 뢈일치λ₯Ό μžλ™μœΌλ‘œ κ°μ§€ν•˜κ³ , μ˜¬λ°”λ₯΄κ²Œ μƒμ„±λœ 뢀뢄을 λ³΄μ‘΄ν•˜λ©΄μ„œ 잘λͺ»λœ λΆ€λΆ„λ§Œμ„ κ΅­μ†Œμ μœΌλ‘œ μˆ˜μ •ν•˜λŠ” 3단계(뢈일치 감지, μˆ˜μ • κ³„νš, κ΅­μ†Œμ  μˆ˜μ •)의 λΉ„λ””μ˜€ 보정 μ „λž΅μ„ μ‚¬μš©ν•œλ‹€. 이λ₯Ό 톡해 λ‹€μ–‘ν•œ ν…μŠ€νŠΈ-λΉ„λ””μ˜€ 생성 λͺ¨λΈμ—μ„œ μƒλ‹Ήν•œ μ„±λŠ₯ ν–₯상을 λ‹¬μ„±ν•˜μ˜€λ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ³΅μž‘ν•œ ν…μŠ€νŠΈ μ„€λͺ…에 λŒ€ν•œ T2V μƒμ„±μ—μ„œ λ°œμƒν•˜λŠ” λ―Έμ„Έν•œ 뢈일치 문제λ₯Ό 효과적으둜 κ°μ§€ν•˜κ³  μˆ˜μ •ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•œλ‹€.
β€’
기쑴의 λΉ„λ””μ˜€ 전체λ₯Ό μž¬ν•΄μ„ν•˜λŠ” 방식과 달리, μ •ν™•ν•˜κ²Œ μƒμ„±λœ 뢀뢄을 λ³΄μ‘΄ν•˜λ©΄μ„œ κ΅­μ†Œμ μΈ μˆ˜μ •λ§Œμ„ μˆ˜ν–‰ν•˜μ—¬ νš¨μœ¨μ„±κ³Ό 결과물의 좩싀성을 높인닀.
β€’
MLLM 기반의 μžλ™ 평가λ₯Ό 톡해 뢈일치λ₯Ό κ°μ§€ν•˜κ³ , 이λ₯Ό λ°”νƒ•μœΌλ‘œ 각 상황에 λ§žλŠ” κ΅­μ†Œμ μΈ μˆ˜μ • κ³„νšμ„ μˆ˜λ¦½ν•˜λŠ” λŠ₯λ ₯을 보여쀀닀.
β€’
νŠΉμ • μœ ν˜•μ˜ λ³΅μž‘ν•œ 곡간 κ΄€κ³„λ‚˜ μ‹œκ°„μ  흐름에 λŒ€ν•œ 뢈일치 감지 및 μˆ˜μ •μ˜ μ •ν™•λ„λŠ” μ—¬μ „νžˆ κ°œμ„ μ˜ μ—¬μ§€κ°€ μžˆμ„ 수 있으며, μ‹€μ‹œκ°„ 생성 ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•˜λ‹€.
πŸ‘