Sign In

VECTOR-Drive: Tightly Coupled Vision-Language and Trajectory Expert Routing for End-to-End Autonomous Driving

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Rui Zhao, Jianlin Yu, Zhenhai Gao, Jiaqiao Liu, Fei Gao

πŸ’‘ κ°œμš”

λ³Έ 논문은 쒅단간(end-to-end) 자율 주행을 μœ„ν•œ Qwen2.5-VL-3B 기반의 tightly coupled VLA(Vision-Language-Action) ν”„λ ˆμž„μ›Œν¬μΈ VECTOR-DRIVEλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. VECTOR-DRIVEλŠ” λͺ¨λ“  토큰을 곡유 μ…€ν”„ μ–΄ν…μ…˜μœΌλ‘œ μ—°κ²°ν•˜λ˜, 토큰 μ˜λ―Έμ— 따라 ν”Όλ“œν¬μ›Œλ“œ 연산을 Vision-Language Expert와 Trajectory Expert둜 λΆ„κΈ°ν•˜μ—¬ μ²˜λ¦¬ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 의미둠적 이해와 ꢀ적 예츑 κ°„μ˜ μž₯점을 κ²°ν•©ν•˜λ©΄μ„œλ„ κ³Όλ„ν•œ νƒœμŠ€ν¬ κ°„ μΆ©λŒμ„ λ°©μ§€ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
의미둠적 정보와 ꢀ적 κ³„νšμ˜ κΈ΄λ°€ν•œ κ²°ν•©: 곡유 μ…€ν”„ μ–΄ν…μ…˜ λ©”μ»€λ‹ˆμ¦˜μ€ λΉ„μ „ 및 μ–Έμ–΄ μ •λ³΄μ˜ ν’λΆ€ν•œ 의미둠적 사전 지식을 μœ μ§€ν•˜λ©΄μ„œλ„, νŠΈλž˜ν”½ 상황 이해와 μ£Όν–‰ μ˜λ„ 좔둠을 ꢀ적 κ³„νšκ³Ό 효과적으둜 μ—°κ²°ν•©λ‹ˆλ‹€.
β€’
νƒœμŠ€ν¬λ³„ μ „λ¬Έν™”λœ μ—°μ‚°: ν† ν°μ˜ μ˜λ―Έμ— 따라 Vision-Language Expert와 Trajectory Expert둜 연산을 λΌμš°νŒ…ν•¨μœΌλ‘œμ¨, 각 μ „λ¬Έκ°€κ°€ ν•΄λ‹Ή νƒœμŠ€ν¬μ— μ΅œμ ν™”λœ 연산을 μˆ˜ν–‰ν•˜λ„λ‘ ν•˜μ—¬ νš¨μœ¨μ„±κ³Ό μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
μœ λ™ 흐름(Flow-matching) 기반의 μ •κ΅ν•œ ꢀ적 생성: λ…Έμ΄μ¦ˆκ°€ ν¬ν•¨λœ μ•‘μ…˜ 토큰을 μœ λ™ 흐름 ν”Œλž˜λ„ˆλ₯Ό 톡해 미래 μ›¨μ΄ν¬μΈνŠΈμ™€ 속도 ν”„λ‘œνŒŒμΌλ‘œ μ •κ΅ν•˜κ²Œ μƒμ„±ν•˜μ—¬ μ•ˆμ „ν•˜κ³  μ‹€ν–‰ κ°€λŠ₯ν•œ μ£Όν–‰ κ³„νšμ„ μˆ˜λ¦½ν•©λ‹ˆλ‹€.
β€’
ν•œκ³„μ :
β—¦
λ…Όλ¬Έμ—μ„œ μ œμ‹œλœ 벀치마크(Bench2Drive)μ—μ„œμ˜ μ„±λŠ₯ μš°μˆ˜μ„±μ΄ μ‹€μ œ λ‹€μ–‘ν•œ ν™˜κ²½μ—μ„œμ˜ μΌλ°˜ν™” μ„±λŠ₯으둜 μ΄μ–΄μ§ˆμ§€λŠ” 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
β—¦
Qwen2.5-VL-3B λͺ¨λΈμ˜ μ œμ•½ μ‚¬ν•­μ΄λ‚˜ computational cost에 λŒ€ν•œ μƒμ„Έν•œ 뢄석이 λΆ€μ‘±ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘