Sign In

Fine-tuning is Not Enough: A Parallel Framework for Collaborative Imitation and Reinforcement Learning in End-to-end Autonomous Driving

Created by
  • Haebom
Category
Empty

μ €μž

Zhexi Lian, Haoran Wang, Xuerun Yan, Weimeng Lin, Xianhong Zhang, Yongyu Chen, Jia Hu

πŸ’‘ κ°œμš”

λ³Έ 논문은 κΈ°μ‘΄ μžμœ¨μ£Όν–‰ End-to-end ν•™μŠ΅ 방식이 λͺ¨λ°© ν•™μŠ΅(IL)μ—λ§Œ μ˜μ‘΄ν•˜μ—¬ 인간 μ‹œμ—°μ˜ μ§ˆμ— ν•œκ³„λ₯Ό λ³΄μ΄λŠ” 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, λͺ¨λ°© ν•™μŠ΅κ³Ό κ°•ν™” ν•™μŠ΅(RL)을 λ³‘λ ¬μ μœΌλ‘œ ν˜‘λ ₯ μ΅œμ ν™”ν•˜λŠ” PaIR-Drive ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. PaIR-DriveλŠ” ILκ³Ό RL을 λΆ„λ¦¬λœ 병렬 ꡬ쑰둜 λ‘ μœΌλ‘œμ¨ λ™μ‹œ ν•™μŠ΅μ„ κ°€λŠ₯ν•˜κ²Œ ν•˜λ©°, 이λ₯Ό 톡해 κΈ°μ‘΄ 순차적 νŒŒμΈνŠœλ‹ λ°©μ‹μ˜ μ •μ±… λ“œλ¦¬ν”„νŠΈ 및 μ„±λŠ₯ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•©λ‹ˆλ‹€. λ˜ν•œ, RL λΆ„κΈ°μ—μ„œ 트리 ꡬ쑰의 ꢀ적 μ‹ κ²½ μƒ˜ν”ŒλŸ¬λ₯Ό μ‚¬μš©ν•˜μ—¬ 탐색 λŠ₯λ ₯을 κ°•ν™”ν•˜κ³ , μΆ”λ‘  μ‹œ IL 정책을 ν™œμš©ν•˜μ—¬ μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
End-to-end μžμœ¨μ£Όν–‰μ—μ„œ λͺ¨λ°© ν•™μŠ΅κ³Ό κ°•ν™” ν•™μŠ΅μ˜ ν˜‘λ ₯적 병렬 ν•™μŠ΅μ„ 톡해 κΈ°μ‘΄ 순차적 νŒŒμΈνŠœλ‹μ˜ 단점을 효과적으둜 ν•΄κ²°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ PaIR-Drive ν”„λ ˆμž„μ›Œν¬λŠ” λ³„λ„μ˜ RL μž¬ν•™μŠ΅ 없이 μƒˆλ‘œμš΄ IL 정책을 μ μš©ν•  수 있으며, RL을 톡해 인간 μ „λ¬Έκ°€μ˜ 잠재적으둜 μ΅œμ ν™”λ˜μ§€ μ•Šμ€ ν–‰λ™κΉŒμ§€ κ΅μ •ν•˜λŠ” μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
νŠΈλžœμŠ€ν“¨μ € 및 디퓨전 λ“œλΌμ΄λΈŒ 기반 λͺ¨λΈμ—μ„œ 경쟁λ ₯ μžˆλŠ” μ„±λŠ₯을 λ‹¬μ„±ν–ˆμœΌλ©°, κ³ ν’ˆμ§ˆ ꢀ적 생성을 μœ„ν•œ 효과적인 탐색 λŠ₯λ ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν•œκ³„μ μœΌλ‘œλŠ” μ œμ•ˆλœ 트리 ꡬ쑰 ꢀ적 μ‹ κ²½ μƒ˜ν”ŒλŸ¬μ˜ λ³΅μž‘μ„±κ³Ό 좔가적인 계산 λΉ„μš©, 그리고 μ‹€μ œ λ³΅μž‘ν•˜κ³  예츑 λΆˆκ°€λŠ₯ν•œ μ‹€μ œ λ„λ‘œ ν™˜κ²½μ—μ„œμ˜ 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘