haebom
Sign In
VL-DPO: Vision-Language-Guided Finetuning for Preference-Aligned Autonomous Driving
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Zhefan Xu, Ghassen Jerfel, Marina Haliem, Qi Zhao, Jeonhyung Kang, Khaled S. Refaat
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μμ¨μ£Όνμ 볡μ‘ν μΈκ° μ΄μ μ νΈλλ₯Ό λ°μνκΈ° μν΄ κΈ°μ‘΄μ λͺ¨λ°© νμ΅ λ°©μμ νκ³λ₯Ό 극볡νκ³ μ ν©λλ€. μ΄λ₯Ό μν΄ Vision-Language Model(VLM)μ νμ©νμ¬ μ¬μ νμ΅λ λͺ¨λΈμ μ£Όν κΆ€μ μμ μΈκ°μ μ νΈλ μμ μλ μμ±νκ³ , μ΄λ₯Ό Direct Preference Optimization(DPO) κΈ°λ²μΌλ‘ λ―ΈμΈ μ‘°μ νλ VL-DPO νλ μμν¬λ₯Ό μ μν©λλ€. μ€ν κ²°κ³Ό, VL-DPOλ μ¬μ νμ΅ λͺ¨λΈ λλΉ μΈκ° μ νΈλ νκ° μ μ(RFS)λ₯Ό 11.94% ν₯μμν€κ³ νκ· λ³μ μ€μ°¨(ADE)λ₯Ό 10.01% κ°μμν€λ μ°μν μ±λ₯μ 보μ¬μ£Όμμ΅λλ€.
π μμ¬μ λ° νκ³
β’
VLMμ μΆλ‘ λ₯λ ₯μ νμ©νμ¬ μΈκ°μ μ΄μ μ νΈλλ₯Ό ν¨κ³Όμ μΌλ‘ ν¬μ°©νκ³ μμ¨μ£Όν λͺ¨λΈμ μ λ ¬ν μ μμμ μ μ¦νμ΅λλ€.
β’
λ³λμ μΈκ° νΌλλ°± μμ§ μμ΄λ VLMμ΄ λμ νμ§μ μ£Όν κΆ€μ μ νΈλ νλ‘μ μν μ μνν μ μμ΅λλ€.
β’
μ μλ λ°©λ²λ‘ μ Waymo Open End-to-End Driving Dataset (WOD-E2E)μ λν΄ κ²μ¦λμμΌλ©°, λ€μν νκ²½ λ° μλ리μ€μμμ μΌλ°ν μ±λ₯μ λν μΆκ° μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage