Sign In

VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding

Created by
  • Haebom
Category
Empty

μ €μž

Jianxiang He, Meisheng Hong, Jungang Li, Weiyu Guo, Xuming Hu, Hui Xiong

πŸ’‘ κ°œμš”

κΈ°μ‘΄ λΉ„λ””μ˜€ 이해 μ—°κ΅¬μ—μ„œ κΈ΄ λΉ„λ””μ˜€ μ²˜λ¦¬μ— 어렀움이 μžˆλŠ” λ©€ν‹°λͺ¨λ‹¬ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ(MLLMs)의 ν•œκ³„λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄, λ³Έ 논문은 λΉ„μ£Όμ–Ό 정보와 μžλ§‰ 정보λ₯Ό μœ΅ν•©ν•˜λŠ” VSI(Visual Subtitle Integration)λΌλŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. VSIλŠ” λΉ„λ””μ˜€ 검색과 μžλ§‰ 맀칭을 κ²°ν•©ν•œ ν˜‘λ ₯적 검색 방식을 톡해 μ‹œκ°μ , ν…μŠ€νŠΈμ  정보λ₯Ό 효과적으둜 μœ΅ν•©ν•˜μ—¬ μ •ν™•ν•œ ν‚€ν”„λ ˆμž„μ„ μ„ νƒν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, VSIλŠ” ν‚€ν”„λ ˆμž„ κ²€μƒ‰μ—μ„œ μ΅œμ²¨λ‹¨ μ„±λŠ₯을 λ‹¬μ„±ν–ˆμ„ 뿐만 μ•„λ‹ˆλΌ ν…μŠ€νŠΈ κ΄€λ ¨ μž‘μ—…μ—μ„œλ„ 획기적인 μ„±λŠ₯ ν–₯상을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λ©€ν‹°λͺ¨λ‹¬ μœ΅ν•©μ˜ μ€‘μš”μ„±: μ‹œκ° μ •λ³΄λΏλ§Œ μ•„λ‹ˆλΌ ν…μŠ€νŠΈ 정보(μžλ§‰)λ₯Ό ν•¨κ»˜ ν™œμš©ν•˜λŠ” 것이 κΈ΄ λΉ„λ””μ˜€ 이해 및 ν‚€ν”„λ ˆμž„ μ„ νƒμ˜ 정확도λ₯Ό 크게 ν–₯μƒμ‹œν‚¬ 수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
ν…μŠ€νŠΈ 쀑심 μž‘μ—…μ—μ„œμ˜ μ„±λŠ₯ ν–₯상: κΈ°μ‘΄ μ‹œκ° 정보 μ€‘μ‹¬μ˜ ν‚€ν”„λ ˆμž„ 선택 방식이 ν…μŠ€νŠΈ κ΄€λ ¨ λΉ„λ””μ˜€ 이해 μž‘μ—…μ— μ·¨μ•½ν–ˆλ˜ 문제λ₯Ό ν•΄κ²°ν•˜κ³ , ν•΄λ‹Ή μž‘μ—…μ—μ„œμ˜ μ„±λŠ₯을 획기적으둜 κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ λΉ„λ””μ˜€ 이해 μž‘μ—…μœΌλ‘œμ˜ ν™•μž₯μ„±: μ œμ•ˆλœ VSI ν”„λ ˆμž„μ›Œν¬κ°€ λ‹¨μˆœνžˆ ν‚€ν”„λ ˆμž„ μ„ νƒλΏλ§Œ μ•„λ‹ˆλΌ λ‹€μ–‘ν•œ λΉ„λ””μ˜€ 이해 μž‘μ—… μ „λ°˜μ— 걸쳐 μš°μˆ˜ν•œ μΌλ°˜ν™” μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.
πŸ‘