Sign In

Dual-Anchoring: Addressing State Drift in Vision-Language Navigation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Kangyi Wu, Pengna Li, Kailin Lyu, Xi Lin, Lin Zhao, Qingrong He, Jinjun Wang, Jianyi Liu

πŸ’‘ κ°œμš”

λ³Έ 논문은 μžμ—°μ–΄ μ§€μ‹œλ₯Ό 따라 3D ν™˜κ²½μ„ νƒμƒ‰ν•˜λŠ” λΉ„μ „-μ–Έμ–΄ λ‚΄λΉ„κ²Œμ΄μ…˜(VLN)μ—μ„œ λ°œμƒν•˜λŠ” 'μƒνƒœ λ“œλ¦¬ν”„νŠΈ' 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄, μ™„λ£Œλœ ν•˜μœ„ λͺ©ν‘œμ™€ 남은 ν•˜μœ„ λͺ©ν‘œλ₯Ό κ΅¬λΆ„ν•˜λ„λ‘ μ§€μ‹œ μ§„ν–‰ 상황을 κ³ μ •ν•˜λŠ” 'Instruction Progress Anchoring'κ³Ό κ³Όκ±° 관찰을 λͺ…ν™•ν•˜κ²Œ κ²€μ¦ν•˜κ³  λ°©λ¬Έν•œ λžœλ“œλ§ˆν¬μ˜ ν‘œν˜„μ„ μœ μ§€ν•˜λ„λ‘ μœ λ„ν•˜λŠ” 'Memory Landmark Anchoring'을 ν¬ν•¨ν•˜λŠ” 'Dual-Anchoring Framework'λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 방법은 κΈ΄ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œ μƒνƒœ λ“œλ¦¬ν”„νŠΈλ‘œ μΈν•œ μ‹€νŒ¨λ₯Ό 크게 쀄여 성곡λ₯ μ„ ν–₯μƒμ‹œμΌ°μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λͺ…ν™•ν•œ ν•˜μœ„ λͺ©ν‘œ 좔적: μ œμ•ˆλœ 방법둠은 μ—μ΄μ „νŠΈκ°€ μ§€μ‹œμ˜ μ§„ν–‰ 상황을 λͺ…ν™•ν•˜κ²Œ μΈμ§€ν•˜κ³  κ΅¬λΆ„ν•˜λ„λ‘ ν•¨μœΌλ‘œμ¨, μž₯거리 μž„λ¬΄ μˆ˜ν–‰ μ‹œ λͺ©ν‘œ 달성λ₯ μ„ 높일 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
κΈ°μ–΅λ ₯ 및 λžœλ“œλ§ˆν¬ 인식 κ°•ν™”: κ³Όκ±° 관찰을 λ˜λŒμ•„λ³΄κ³  λžœλ“œλ§ˆν¬λ₯Ό μž¬ν™•μΈν•˜λŠ” λ©”μ»€λ‹ˆμ¦˜μ€ μ—μ΄μ „νŠΈμ˜ κΈ°μ–΅λ ₯ μ €ν•˜λ‘œ μΈν•œ ν˜Όλž€μ„ 쀄이고, μ€‘μš”ν•œ 지점을 λ†“μΉ˜μ§€ μ•Šλ„λ‘ λ•μŠ΅λ‹ˆλ‹€.
β€’
데이터셋 κ΅¬μΆ•μ˜ μ€‘μš”μ„±: 두 개의 λŒ€κ·œλͺ¨ 데이터셋 ꡬ좕은 μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ 효과적인 ν•™μŠ΅κ³Ό 검증을 κ°€λŠ₯ν•˜κ²Œ ν–ˆμœΌλ©°, μ΄λŠ” ν–₯ν›„ VLN 연ꡬ에도 κΈ°μ—¬ν•  κ²ƒμž…λ‹ˆλ‹€.
β€’
데이터 생성 및 λͺ¨λΈ λ³΅μž‘μ„±: μƒˆλ‘­κ²Œ κ΅¬μΆ•λœ λ°μ΄ν„°μ…‹μ˜ λ°©λŒ€ν•œ 규λͺ¨μ™€ μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ λ³΅μž‘μ„±μ€ μ‹€μ œ 적용 μ‹œ 계산 μžμ› 및 κ΅¬ν˜„μ˜ 어렀움을 μ•ΌκΈ°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘