Sign In

Dejavu: Towards Experience Feedback Learning for Embodied Intelligence

Created by
  • Haebom
Category
Empty

μ €μž

Shaokai Wu, Yanbiao Ji, Qiuchang Li, Zhiyi Zhang, Qichen He, Wenyuan Xie, Guodong Zhang, Bayram Bayramli, Yue Ding, Hongtao Lu

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ‹€μ œ ν™˜κ²½μ— 배포된 ν›„ μƒˆλ‘œμš΄ 지식 μŠ΅λ“μ— 어렀움을 κ²ͺλŠ” μ²΄ν™”λœ μ—μ΄μ „νŠΈμ˜ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 'Dejavu'λΌλŠ” ν•™μŠ΅ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. DejavuλŠ” κ³ μ •λœ Vision-Language-Action (VLA) 정책에 κ²½ν—˜ ν”Όλ“œλ°± λ„€νŠΈμ›Œν¬(EFN)λ₯Ό 톡해 κ³Όκ±° μ‹€ν–‰ 기얡을 κ²€μƒ‰ν•˜μ—¬ ν†΅ν•©ν•¨μœΌλ‘œμ¨ μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€. EFN은 상황에 λ§žλŠ” 이전 행동 κ²½ν—˜μ„ μ‹λ³„ν•˜κ³  κ²€μƒ‰λœ 정보λ₯Ό λ°”νƒ•μœΌλ‘œ 행동 μ˜ˆμΈ‘μ„ κ°•ν™”ν•˜λ©°, κ°•ν™” ν•™μŠ΅κ³Ό 의미둠적 μœ μ‚¬μ„± 보상을 톡해 ν›ˆλ ¨λ˜μ–΄ μ—μ΄μ „νŠΈκ°€ κ²½ν—˜μœΌλ‘œλΆ€ν„° ν•™μŠ΅ν•˜λŠ” λŠ₯λ ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ‹€μ‹œκ°„ κ²½ν—˜ 기반 ν•™μŠ΅: 배포 후에도 μ—μ΄μ „νŠΈκ°€ μ§€μ†μ μœΌλ‘œ μƒˆλ‘œμš΄ κ²½ν—˜μ„ ν•™μŠ΅ν•˜κ³  κΈ°μ‘΄ 정책을 보완할 수 μžˆλŠ” 일반적인 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•©λ‹ˆλ‹€.
β€’
견고성 및 적응성 ν–₯상: λ‹€μ–‘ν•œ μ²΄ν™”λœ μž‘μ—…μ—μ„œ DejavuλŠ” κ³ μ •λœ μ •μ±… 기반 μ—μ΄μ „νŠΈλ³΄λ‹€ ν–₯μƒλœ 적응성, 견고성 및 성곡λ₯ μ„ 보여주어 μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ μ‹€μš©μ„±μ„ μž…μ¦ν•©λ‹ˆλ‹€.
β€’
효율적인 λ©”λͺ¨λ¦¬ ν™œμš© 및 ν›ˆλ ¨: EFN은 상황에 λ§žλŠ” κ³Όκ±° κ²½ν—˜μ„ 효율적으둜 κ²€μƒ‰ν•˜κ³ , κ°•ν™” ν•™μŠ΅μ„ 톡해 ν›ˆλ ¨λ˜μ–΄ ν•™μŠ΅ κ³Όμ •μ˜ λ³΅μž‘μ„±μ„ 쀄이고 μ„±λŠ₯을 μ΅œμ ν™”ν•©λ‹ˆλ‹€.
β€’
κΈ°μ–΅ 관리 및 ν™•μž₯μ„±μ˜ λ³΅μž‘μ„±: κ²½ν—˜μ„ μ§€μ†μ μœΌλ‘œ 좕적함에 따라 효율적인 λ©”λͺ¨λ¦¬ 관리 및 검색 μ „λž΅μ΄ λ”μš± μ€‘μš”ν•΄μ§€λ©°, λŒ€κ·œλͺ¨ κ²½ν—˜ λΌμ΄λΈŒλŸ¬λ¦¬μ—μ„œμ˜ ν™•μž₯성은 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘