Sign In

EgoBabyVLM: Benchmarking Cross-Modal Learning from Naturalistic Egocentric Video Data

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Dongyan Lin, Phillip Rust, Angel Villar Corrales, Alvin W. M. Tan, Mahi Luthra, Charles-Eric Saint-James, Rashel Moritz, Sheila Krogh-Jespersen, Vanessa Stark, Surya Parimi, Jiayi Shen, Youssef Benchekroun, Yosuke Higuchi, Martin Gleize, Tom Fizycki, Nicolas Hamilakis, Manel Khentout, Sho Tsuji, Balazs Kegl, Juan Pino, Michael C. Frank, Emmanuel Dupoux

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μžμ—°μŠ€λŸ¬μš΄ μΈκ°„μ˜ μ‹œμ μ—μ„œ 촬영된 μ˜μƒ λ°μ΄ν„°λ‘œλΆ€ν„° ꡐ차 λͺ¨λ‹¬ ν•™μŠ΅μ„ ν‰κ°€ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 벀치마크인 EgoBabyVLM을 μ œμ•ˆν•©λ‹ˆλ‹€. κΈ°μ‘΄ λŒ€κ·œλͺ¨ λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈ(VLM)듀이 μ›Ή 데이터 기반 ν•™μŠ΅μ— 치우쳐 μ•½ν•˜κ²Œ μ •λ ¬λœ 일인칭 μ˜μƒ 데이터에 λŒ€ν•œ μΌλ°˜ν™” μ„±λŠ₯이 λ–¨μ–΄μ§„λ‹€λŠ” 문제λ₯Ό μ§€μ ν•˜λ©°, λ‹€μ–‘ν•œ μˆ˜μ€€μ˜ 의미적 정렬을 κ°€μ§„ λ°μ΄ν„°μ…‹μœΌλ‘œ VLM을 ν•™μŠ΅μ‹œν‚€κ³  쒅합적인 평가λ₯Ό μˆ˜ν–‰ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 ν˜„μž¬ VLM이 μžμ—°μŠ€λŸ¬μš΄ 일인칭 μ˜μƒμ˜ μ•½ν•œ μ‹ ν˜Έλ₯Ό μ œλŒ€λ‘œ ν™œμš©ν•˜μ§€ λͺ»ν•˜λ©°, 인간 μœ μ•„μ˜ ν•™μŠ΅ λ°©μ‹κ³ΌλŠ” 거리가 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν˜„μž¬μ˜ VLM은 μ›Ήμ—μ„œ μˆ˜μ§‘λœ κ³ λ„λ‘œ μ •λ ¬λœ 데이터에 크게 μ˜μ‘΄ν•˜λ©°, μ‹€μ œ μ„Έκ³„μ˜ μ•½ν•˜κ²Œ μ •λ ¬λœ, μžμ—°μŠ€λŸ¬μš΄ μ‹œμ μ˜ μ˜μƒ 데이터에 λŒ€ν•œ ν•™μŠ΅ 및 평가 λŠ₯λ ₯이 λΆ€μ‘±ν•©λ‹ˆλ‹€.
β€’
인간 μœ μ•„κ°€ μ–Έμ–΄λ₯Ό μŠ΅λ“ν•˜λŠ” 방식과 같이, μ•½ν•œ μ •λ ¬ μ‹ ν˜Έμ—μ„œ 효율적으둜 μ–Έμ–΄λ₯Ό ν•™μŠ΅ν•˜λŠ” λͺ¨λΈ 개발의 ν•„μš”μ„±μ΄ κ°•μ‘°λ©λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬λŠ” μ΄λŸ¬ν•œ μžμ—°μŠ€λŸ¬μš΄ 일인칭 μ˜μƒ λ°μ΄ν„°μ˜ νŠΉμ„±μ„ 더 잘 ν™œμš©ν•  수 μžˆλŠ” μƒˆλ‘œμš΄ VLM μ•„ν‚€ν…μ²˜λ‚˜ ν•™μŠ΅ 방법둠 κ°œλ°œμ— 집쀑해야 ν•  κ²ƒμž…λ‹ˆλ‹€.
β€’
Machine-DevBench와 같은 μƒˆλ‘œμš΄ 평가 λ„κ΅¬λŠ” ν›ˆλ ¨/평가 뢈일치 문제λ₯Ό ν•΄κ²°ν•˜κ³  λͺ¨λΈμ˜ μ‹€μ œμ μΈ μ–Έμ–΄ 이해 λŠ₯λ ₯을 μΈ‘μ •ν•˜λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.
πŸ‘