Sign In

VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Yiming Zhao, Yu Zeng, Wenxuan Huang, Zhen Fang, Qing Miao, Qisheng Su, Jiawei Zhao, Jiayin Cai, Lin Chen, Zehui Chen, Yukun Qi, Yao Hu, Xiaolong Jiang, Feng Zhao

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ μ‹œκ°-μ–Έμ–΄ λͺ¨λΈ(LVLMs)이 μΈμŠ€ν„΄μŠ€ μˆ˜μ€€μ˜ μ •λ°€ν•œ μ‹œκ³΅κ°„μ  μœ„μΉ˜ νŒŒμ•…μ— 어렀움을 κ²ͺλŠ” 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ VideoSeekerλΌλŠ” μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„μ„ μ œμ•ˆν•©λ‹ˆλ‹€. VideoSeekerλŠ” ν…μŠ€νŠΈ ν”„λ‘¬ν”„νŠΈ λŒ€μ‹  μ‹œκ°μ  ν”„λ‘¬ν”„νŠΈλ₯Ό ν™œμš©ν•˜κ³ , μ—μ΄μ „νŠΈ 기반 좔둠을 ν†΅ν•©ν•˜μ—¬ λͺ¨λΈμ΄ λŠ₯λ™μ μœΌλ‘œ κ΄€λ ¨ λΉ„λ””μ˜€ μ„Έκ·Έλ¨ΌνŠΈλ₯Ό μΈμ‹ν•˜κ³  κ²€μƒ‰ν•˜λ„λ‘ ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 μΈμŠ€ν„΄μŠ€ μˆ˜μ€€ λΉ„λ””μ˜€ 이해 μž‘μ—…μ—μ„œ 13.7%의 평균 ν–₯상을 λ‹¬μ„±ν•˜λ©°, GPT-4o 및 Gemini-2.5-Pro와 같은 μ΅œμ‹  λͺ¨λΈλ“€μ„ λŠ₯κ°€ν•˜λŠ” μ„±κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹œκ°μ  ν”„λ‘¬ν”„νŠΈλ₯Ό 톡해 μΈμŠ€ν„΄μŠ€ μˆ˜μ€€μ˜ μ •λ°€ν•œ μ‹œκ³΅κ°„μ  이해λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•˜μ—¬ μ‚¬μš©μž κ²½ν—˜μ„ 크게 κ°œμ„ ν•©λ‹ˆλ‹€.
β€’
μ—μ΄μ „νŠΈ 기반 좔둠을 ν†΅ν•©ν•˜μ—¬ λͺ¨λΈμ΄ 슀슀둜 λΉ„λ””μ˜€ λ‚΄μš©μ„ νƒμƒ‰ν•˜κ³  κ΄€λ ¨ 정보λ₯Ό λŠ₯λ™μ μœΌλ‘œ μ°ΎλŠ” λŠ₯λ ₯을 κ°•ν™”ν•©λ‹ˆλ‹€.
β€’
λŒ€κ·œλͺ¨ κ³ ν’ˆμ§ˆ 데이터 생성을 μœ„ν•œ μžλ™ν™”λœ νŒŒμ΄ν”„λΌμΈ ꡬ좕은 ν–₯ν›„ μœ μ‚¬ 연ꡬ에 μœ μš©ν•œ 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ μ œμ‹œλœ λ°©λ²•λ‘ μ˜ 일반적인 λΉ„λ””μ˜€ 이해 벀치마크둜의 전이 ν•™μŠ΅ νš¨κ³ΌλŠ” μž…μ¦λ˜μ—ˆμœΌλ‚˜, 더 λ³΅μž‘ν•˜κ±°λ‚˜ λ‹€μ–‘ν•œ μœ ν˜•μ˜ λΉ„λ””μ˜€ 이해 μž‘μ—…μ— λŒ€ν•œ μ„±λŠ₯은 μΆ”κ°€ 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘