Sign In

HumanEgo: Zero-Shot Robot Learning from Minutes of Human Egocentric Videos

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Zhi Wang, Botao He, Kelin Yu, Seungjae Lee, Ruohan Gao, Furong Huang, Yiannis Aloimonos

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” λ‘œλ΄‡ ν•˜λ“œμ›¨μ–΄ 없이 μΈκ°„μ˜ μ‹œμ (egocentric) λΉ„λ””μ˜€μ—μ„œ ν’λΆ€ν•œ μ‘°μž‘ μ‹œμ—° 데이터λ₯Ό ν™œμš©ν•˜μ—¬ μ œλ‘œμƒ· λ‘œλ΄‡ ν•™μŠ΅μ„ κ°€λŠ₯ν•˜κ²Œ ν•˜λŠ” HumanEgo ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. HumanEgoλŠ” μ‹œκ° 및 μš΄λ™ν•™μ  차이(embodiment gap)λ₯Ό κ·Ήλ³΅ν•˜κΈ° μœ„ν•΄ 인간 μ‹œμ—°μ„ 손-객체 μƒν˜Έμž‘μš©μ˜ 개체 μˆ˜μ€€ ν‘œν˜„μœΌλ‘œ λ³€ν™˜ν•˜κ³ , 흐름 일치(flow matching) 정책을 μ‚¬μš©ν•˜μ—¬ 각 κΆ€μ μ—μ„œ λ°œμƒν•˜λŠ” λͺ¨λ“  감독 정보λ₯Ό μ¦ν­μ‹œν‚΅λ‹ˆλ‹€. μ œμ•ˆλœ ν”„λ ˆμž„μ›Œν¬λŠ” λ‘œλ΄‡ λ°μ΄ν„°λ‚˜ νŠΉμ • ν•˜λ“œμ›¨μ–΄μ— μ˜μ‘΄ν•˜μ§€ μ•ŠμœΌλ©°, 30λΆ„ μ΄λ‚΄μ˜ 인간 λΉ„λ””μ˜€ λ°μ΄ν„°λ§ŒμœΌλ‘œλ„ 높은 성곡λ₯ μ„ λ‹¬μ„±ν•˜κ³  μƒˆλ‘œμš΄ λ‘œλ΄‡, 카메라, ν™˜κ²½μ— λŒ€ν•΄ μ œλ‘œμƒ·μœΌλ‘œ κ°•κ±΄ν•˜κ²Œ μ „μ΄λ©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
인간 μ‹œμ  λΉ„λ””μ˜€λ₯Ό ν™œμš©ν•˜μ—¬ λ‘œλ΄‡ ν•™μŠ΅μ— ν•„μš”ν•œ 데이터λ₯Ό 획기적으둜 μ ˆκ°ν•˜κ³ , λ³„λ„μ˜ λ‘œλ΄‡ ν…”λ ˆμ˜€νΌλ ˆμ΄μ…˜λ³΄λ‹€ μš°μˆ˜ν•œ μ„±λŠ₯을 보여 μ‹€μ§ˆμ μΈ λ‘œλ΄‡ ν•™μŠ΅ λ°©μ‹μ˜ λŒ€μ•ˆμ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ‘œλ΄‡ ν•˜λ“œμ›¨μ–΄ 및 ν™˜κ²½μ— λŒ€ν•œ 사전 지식 없이도 ν•™μŠ΅λœ κΈ°μˆ μ„ λ‹€μ–‘ν•œ λ‘œλ΄‡μ— μ œλ‘œμƒ·μœΌλ‘œ 전이할 수 μžˆμ–΄ λ²”μš©μ„±κ³Ό 데이터 νš¨μœ¨μ„±μ„ κ·ΉλŒ€ν™”ν•©λ‹ˆλ‹€.
β€’
λΉ„λ””μ˜€ 데이터 λ‚΄μ˜ λ―Έλ¬˜ν•œ μƒν˜Έμž‘μš© μ •λ³΄λ‚˜ λ³΅μž‘ν•œ 객체 μ‘°μž‘μ„ ν¬μ°©ν•˜λŠ” 데 μžˆμ–΄ λ°μ΄ν„°μ˜ ν’ˆμ§ˆκ³Ό 닀양성이 ν•™μŠ΅ μ„±λŠ₯에 λ―ΈμΉ˜λŠ” 영ν–₯을 μΆ”κ°€μ μœΌλ‘œ λΆ„μ„ν•˜κ³ , 더 λ³΅μž‘ν•œ μž‘μ—…μœΌλ‘œμ˜ ν™•μž₯을 μœ„ν•œ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘