Sign In

Omni-R1: Towards the Unified Generative Paradigm for Multimodal Reasoning

Created by
  • Haebom
Category
Empty

μ €μž

Dongjie Cheng, Yongqi Li, Zhixin Ma, Hongru Cai, Yupeng Hu, Wenjie Wang, Liqiang Nie, Wenjie Li

πŸ’‘ κ°œμš”

λ³Έ 논문은 λ‹€μ–‘ν•œ λ©€ν‹°λͺ¨λ‹¬ μΆ”λ‘  μž‘μ—…μ„ 단일 생성 νŒ¨λŸ¬λ‹€μž„μœΌλ‘œ ν†΅ν•©ν•˜λŠ” Omni-R1을 μ œμ•ˆν•©λ‹ˆλ‹€. Omni-R1은 μΆ”λ‘  κ³Όμ •μ—μ„œ 쀑간 이미지λ₯Ό μƒμ„±ν•˜μ—¬ 쀌인, 객체 ν‘œμ‹œ λ“± λ‹€μ–‘ν•œ λ©€ν‹°λͺ¨λ‹¬ μΆ”λ‘  λŠ₯λ ₯을 ν†΅μΌν•©λ‹ˆλ‹€. μ œμ•ˆλœ ν”„λ ˆμž„μ›Œν¬λŠ” SFT+RL 기반으둜, κΈ°λŠ₯적인 이미지 생성을 κ°€λŠ₯ν•˜κ²Œ ν•˜λ©°, 특히 Omni-R1-ZeroλŠ” λ©€ν‹°λͺ¨λ‹¬ 주석 없이도 ν…μŠ€νŠΈ 기반 μΆ”λ‘  λ°μ΄ν„°λ§Œμ„ μ‚¬μš©ν•˜μ—¬ μœ μ‚¬ν•˜κ±°λ‚˜ 더 λ‚˜μ€ μ„±λŠ₯을 λ‹¬μ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ‹€μ–‘ν•œ λ©€ν‹°λͺ¨λ‹¬ μΆ”λ‘  μž‘μ—…μ„ 쀑간 이미지 생성을 톡해 단일 생성 νŒ¨λŸ¬λ‹€μž„μœΌλ‘œ 톡합할 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
λ©€ν‹°λͺ¨λ‹¬ 주석 없이도 ν…μŠ€νŠΈ 기반 μΆ”λ‘  λ°μ΄ν„°λ§Œμ„ ν™œμš©ν•˜μ—¬ κ°•λ ₯ν•œ λ©€ν‹°λͺ¨λ‹¬ μΆ”λ‘  λͺ¨λΈμ„ ꡬ좕할 수 μžˆλŠ” κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ μ‹€μ œ μ‘μš© μ‹œ, μƒμ„±λ˜λŠ” 쀑간 μ΄λ―Έμ§€μ˜ ν’ˆμ§ˆκ³Ό νš¨μœ¨μ„±μ΄ μΆ”λ‘  μ„±λŠ₯에 λ―ΈμΉ˜λŠ” 영ν–₯에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘