haebom
Sign In
VLADriver-RAG: Retrieval-Augmented Vision-Language-Action Models for Autonomous Driving
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Rui Zhao, Haofeng Hu, Zhenhai Gao, Jiaqiao Liu, Gao Fei
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด End-to-End ์์จ ์ฃผํ ๋ชจ๋ธ์ ์ฅ๊ธฐ์ ์ธ ์ผ๋ฐํ ์ฑ๋ฅ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ฒ์ ์ฆ๊ฐ(Retrieval-Augmented) ๋ฐฉ์์ ๋์ ํ VLADriver-RAG ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. ์ ์ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์๊ณต๊ฐ์ ์๋ฏธ๋ก ์ ๊ทธ๋ํ๋ฅผ ํตํด ๊ฐ๊ฐ ์ ๋ ฅ์ ์ถ์ํํ์ฌ ์๊ฐ์ ๋ ธ์ด์ฆ๋ฅผ ํํฐ๋งํ๊ณ , ๊ทธ๋ํ ๋์ ์๊ฐ ์๊ณก(Graph-DTW) ๋ฉํธ๋ฆญ์ ํ์ฉํ ์๋๋ฆฌ์ค ์ ๋ ฌ ์๋ฒ ๋ฉ ๋ชจ๋ธ๋ก ๊ฒ์ ๊ด๋ จ์ฑ์ ๋์ธ๋ค. ์ด๋ฅผ ํตํด ๋ช ์์ ์ด๊ณ ๊ตฌ์กฐํ๋ ๊ณผ๊ฑฐ ์ง์์ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ฐํ๊ณ ๋ถ๋ฆฌ๋ ๊ถค์ ์ ์์ฑํ์ฌ Bench2Drive ๋ฒค์น๋งํฌ์์ 89.12์ Driving Score๋ก ์๋ก์ด ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๋ช ์์ ์ด๊ณ ๊ตฌ์กฐํ๋ ๊ณผ๊ฑฐ ์ง์ ํ์ฉ์ ํตํด ์ฅ๊ธฐ์ ์ธ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
โข
์๊ฐ์ ๋ ธ์ด์ฆ ํํฐ๋ง ๋ฐ ์๋ฏธ๋ก ์ ๊ทธ๋ํ ๊ธฐ๋ฐ์ ๊ฒ์ ๊ด๋ จ์ฑ ๊ฐํ ๊ธฐ์ ์ ๋ณต์กํ ์ฃผํ ํ๊ฒฝ์์์ ์์จ ์ฃผํ ์์คํ ์ฑ๋ฅ ๊ฐ์ ์ ๊ธฐ์ฌํฉ๋๋ค.
โข
๊ณ ์ ๋ฐ ๊ถค์ ์์ฑ ๋ฐ disentangled trajectory synthesis๋ ๋ณด๋ค ์์ ํ๊ณ ์์ธก ๊ฐ๋ฅํ ์์จ ์ฃผํ ์์คํ ๊ตฌํ์ ์ค์ํ ์ญํ ์ ํ ๊ฒ์ ๋๋ค.
โข
์ ์๋ ๋ฐฉ๋ฒ๋ก ์ด ๋ค์ํ ์ค์ ์ฃผํ ์๋๋ฆฌ์ค ๋ฐ ๋๋ฐ ์ํฉ์ ๋ํด ์ผ๋ง๋ ๊ฐ๊ฑดํ์ง ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage