Sign In

OmniVideo-R1: Reinforcing Audio-visual Reasoning with Query Intention and Modality Attention

Created by
  • Haebom
Category
Empty

μ €μž

Zhangquan Chen, Jiale Tao, Ruihuang Li, Yihao Hu, Ruitao Chen, Zhantao Yang, Xinlei Yu, Haodong Jing, Manyuan Zhang, Shuai Shao, Biao Wang, Qinglin Lu, Ruqi Huang

πŸ’‘ κ°œμš”

λ³Έ 논문은 μΈκ°„μ²˜λŸΌ μ—¬λŸ¬ 감각 정보λ₯Ό ν†΅ν•©ν•˜μ—¬ 세상을 μ΄ν•΄ν•˜λŠ” 데 어렀움을 κ²ͺλŠ” 기쑴의 μ˜΄λ‹ˆλΉ„λ””μ˜€ λͺ¨λΈμ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ OmniVideo-R1μ΄λΌλŠ” μƒˆλ‘œμš΄ κ°•ν™” ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•˜λ©°, μ΄λŠ” 쿼리 기반 집쀑 ν•™μŠ΅κ³Ό λͺ¨λ‹¬λ¦¬ν‹° 주의 μœ΅ν•©μ„ 톡해 닀쀑 감각 정보 μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. μ œμ•ˆλœ 방법둠은 μ—¬λŸ¬ λ²€μΉ˜λ§ˆν¬μ—μ„œ κΈ°μ‘΄ λͺ¨λΈ λŒ€λΉ„ μš°μˆ˜ν•œ μ„±λŠ₯을 보여, κ·Έ νš¨κ³Όμ„±κ³Ό μΌλ°˜ν™” λŠ₯λ ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
닀쀑 감각 정보(μ‹œκ°, 청각 λ“±)λ₯Ό λ”μš± 효과적으둜 ν†΅ν•©ν•˜μ—¬ μ˜΄λ‹ˆλΉ„λ””μ˜€ 이해λ₯Ό κ°•ν™”ν•˜λŠ” μƒˆλ‘œμš΄ μ ‘κ·Ό 방식을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
자기 지도 ν•™μŠ΅ 및 λŒ€μ‘° ν•™μŠ΅ νŒ¨λŸ¬λ‹€μž„μ„ ν™œμš©ν•˜μ—¬ λͺ¨λΈμ˜ μΆ”λ‘  λŠ₯λ ₯을 'κ°•ν™”'ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ OmniVideo-R1은 λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ κ°•λ ₯ν•œ μ„±λŠ₯을 보이며, μ˜΄λ‹ˆλΉ„λ””μ˜€ 이해 λΆ„μ•Όμ˜ λ°œμ „μ— κΈ°μ—¬ν•  잠재λ ₯을 κ°€μ§€κ³  μžˆμŠ΅λ‹ˆλ‹€.
β€’
(ν•œκ³„μ  λ˜λŠ” ν–₯ν›„ 과제) λ…Όλ¬Έ μ΄ˆλ‘λ§ŒμœΌλ‘œλŠ” ꡬ체적인 ν•œκ³„μ μ΄λ‚˜ ν–₯ν›„ 연ꡬ λ°©ν–₯을 λͺ…ν™•νžˆ νŒŒμ•…ν•˜κΈ° μ–΄λ ΅μŠ΅λ‹ˆλ‹€. (예: μ‹€μ œ 적용 μ‹œμ˜ 계산 λ³΅μž‘μ„±, νŠΉμ • 데이터셋에 λŒ€ν•œ 과적합 κ°€λŠ₯μ„±, λ‹€λ₯Έ λͺ¨λ‹¬λ¦¬ν‹°λ‘œμ˜ ν™•μž₯μ„± λ“±)
πŸ‘