Sign In

From Scene to Object: Text-Guided Dual-Gaze Prediction

Created by
  • Haebom
Category
Empty

μ €μž

Zehong Ke, Yanbo Jiang, Jinhao Li, Zhiyuan Liu, Yiqian Tu, Qingwen Meng, Heye Huang, Jianqiang Wang

πŸ’‘ κ°œμš”

λ³Έ 논문은 μžμœ¨μ£Όν–‰ μ‹œ μš΄μ „μž μ‹œμ„  예츑의 정확도λ₯Ό 높이기 μœ„ν•΄ 객체 μˆ˜μ€€μ˜ μ„Έλ°€ν•œ 주석이 λΆ€μ‘±ν•œ κΈ°μ‘΄ λ°μ΄ν„°μ…‹μ˜ ν•œκ³„λ₯Ό μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ €μžλ“€μ€ Segment Anything Model 3 (SAM3)κ³Ό λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ„ ν™œμš©ν•˜μ—¬ 객체 μˆ˜μ€€μ˜ μš΄μ „μž 주석 데이터셋인 G-W3DAλ₯Ό μƒˆλ‘­κ²Œ κ΅¬μΆ•ν–ˆμŠ΅λ‹ˆλ‹€. λ˜ν•œ, μ œμ•ˆλœ DualGaze-VLM λͺ¨λΈμ€ λ°μ΄ν„°μ…‹μ˜ ν’ˆμ§ˆμ„ 기반으둜 의미둠적 쿼리의 μˆ¨κ²¨μ§„ μƒνƒœλ₯Ό μΆ”μΆœν•˜κ³  μ‹œκ°μ  νŠΉμ§•μ„ λ™μ μœΌλ‘œ μ‘°μ ˆν•˜μ—¬ μ•ˆμ „μ΄ μ€‘μš”ν•œ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œ κΈ°μ‘΄ 졜고 μ„±λŠ₯ λͺ¨λΈ λŒ€λΉ„ μ΅œλŒ€ 17.8%의 SIM ν–₯상을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μš΄μ „μž μ‹œμ„  μ˜ˆμΈ‘μ„ μœ„ν•œ κ³ ν’ˆμ§ˆμ˜ 객체 μˆ˜μ€€ 주석 데이터셋 κ΅¬μΆ•μ˜ μ€‘μš”μ„±κ³Ό κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ©€ν‹°λͺ¨λ‹¬ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈκ³Ό 객체 λΆ„ν•  λͺ¨λΈμ„ κ²°ν•©ν•˜μ—¬ ν…μŠ€νŠΈ 기반의 μ •λ°€ν•œ 인지 λͺ¨λΈλ§μ΄ κ°€λŠ₯함을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ DualGaze-VLM λͺ¨λΈμ€ 객체 μˆ˜μ€€μ˜ μ‹œμ„  μ˜ˆμΈ‘μ—μ„œ λ›°μ–΄λ‚œ μ„±λŠ₯을 보이며, μ‹€μ œ μš΄μ „ μƒν™©μ—μ„œμ˜ 인간과 μœ μ‚¬ν•œ 인지 과정을 λͺ¨λ°©ν•  수 μžˆμŒμ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν•΄λ‹Ή μ—°κ΅¬λŠ” μžμœ¨μ£Όν–‰ μ‹œμŠ€ν…œμ˜ 해석 κ°€λŠ₯μ„±κ³Ό μ•ˆμ „μ„±μ„ ν–₯μƒμ‹œν‚€λŠ” 데 κΈ°μ—¬ν•  잠재λ ₯을 κ°€μ§‘λ‹ˆλ‹€.
β€’
ν˜„μž¬ 데이터셋 ꡬ좕 방법둠이 νŠΉμ • 도ꡬ(SAM3)에 μ˜μ‘΄ν•˜κ³  μžˆμ–΄, λ²”μš©μ μΈ 적용 κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ‹€μ œ μ£Όν–‰ ν™˜κ²½μ˜ λ‹€μ–‘μ„± 및 λ³΅μž‘μ„±μ„ μ™„λ²½ν•˜κ²Œ λ°˜μ˜ν•˜κΈ° μœ„ν•œ 좔가적인 데이터 증강 및 λͺ¨λΈ κ°œμ„ μ΄ ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘