Sign In

Do Joint Audio-Video Generation Models Understand Physics?

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zijun Cui, Xiulong Liu, Hao Fang, Mingwei Xu, Jiageng Liu, Zexin Xu, Weiguo Pian, Shijian Deng, Feiyu Du, Chenming Ge, Yapeng Tian

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 곡동 μ˜€λ””μ˜€-λΉ„λ””μ˜€ 생성 λͺ¨λΈμ΄ μ‹€μ œ 물리 법칙을 μ΄ν•΄ν•˜λŠ”μ§€, μ•„λ‹ˆλ©΄ λ‹¨μˆœνžˆ κ·ΈλŸ΄λ“―ν•œ 결과물을 μƒμ„±ν•˜λŠ”μ§€λ₯Ό ν‰κ°€ν•˜κΈ° μœ„ν•΄ AV-Phys BenchλΌλŠ” μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 λ²€μΉ˜λ§ˆν¬λŠ” λ‹€μ–‘ν•œ μž₯λ©΄ μœ ν˜•κ³Ό 물리적 일관성을 ν…ŒμŠ€νŠΈν•˜λ©°, κΈ°μ‘΄ λͺ¨λΈλ“€μ˜ 물리적 이해도가 μ—¬μ „νžˆ 뢀쑱함을 λ³΄μ—¬μ€λ‹ˆλ‹€. 특히, μ „ν™˜μ΄ λ°œμƒν•˜λŠ” μž₯λ©΄μ΄λ‚˜ 물리적으둜 μΌκ΄€λ˜μ§€ μ•Šμ€ μš”μ²­μ— λŒ€ν•΄ μ„±λŠ₯ μ €ν•˜κ°€ λ‘λ“œλŸ¬μ§€λ©°, 인간 평가와 μœ μ‚¬ν•œ κ²°κ³Όλ₯Ό λ„μΆœν•˜λŠ” AV-Phys Agent ν‰κ°€μžλ₯Ό ν•¨κ»˜ μ†Œκ°œν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
곡동 μ˜€λ””μ˜€-λΉ„λ””μ˜€ 생성 λͺ¨λΈμ€ 아직 물리적 μƒμ‹μ΄λ‚˜ μ‹€μ œ μ„Έκ³„μ˜ 일관성을 μ œλŒ€λ‘œ μ΄ν•΄ν•˜μ§€ λͺ»ν•˜λ©°, μ΄λŠ” λͺ¨λΈ 개발의 μ€‘μš”ν•œ μž₯μ• λ¬Όμž…λ‹ˆλ‹€.
β€’
μž₯λ©΄ μ „ν™˜(event/environment transition)κ³Ό 같이 역동적인 μƒν™©μ—μ„œμ˜ 물리적 일관성 μœ μ§€κ°€ ν˜„μž¬ λͺ¨λΈλ“€μ˜ 핡심적인 μ•½μ μž…λ‹ˆλ‹€.
β€’
μΈκ°„μ˜ 평가와 μœ μ‚¬ν•œ μžλ™ ν‰κ°€μž(AV-Phys Agent) κ°œλ°œμ€ ν–₯ν›„ 곡동 μ˜€λ””μ˜€-λΉ„λ””μ˜€ 생성 λͺ¨λΈ ν‰κ°€μ˜ νš¨μœ¨μ„±μ„ 높일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬λŠ” λͺ¨λΈμ΄ 물리 법칙을 더 깊이 μ΄ν•΄ν•˜κ³ , λ³΅μž‘ν•œ μž₯λ©΄ μ „ν™˜ μ†μ—μ„œλ„ 일관성을 μœ μ§€ν•˜λ©°, μΈκ°„μ˜ 물리적 직관을 λ”°λ₯΄λ„둝 κ°œμ„ ν•˜λŠ” 데 μ΄ˆμ μ„ λ§žμΆ°μ•Ό ν•©λ‹ˆλ‹€.
πŸ‘