Scaling Laws of Motion Forecasting and Planning - Technical Report
Created by
Haebom
저자
Mustafa Baniodeh, Kratarth Goel, Scott Ettinger, Carlos Fuertes, Ari Seff, Tim Shen, Cole Gulino, Chenjie Yang, Ghassen Jerfel, Dokook Choe, Rui Wang, Benjamin Charrow, Vinutha Kallem, Sergio Casas, Rami Al-Rfou, Benjamin Sapp, Dragomir Anguelov
개요
자율 주행 분야에서의 공동 모션 예측 및 계획 작업에 대한 인코더-디코더 자기 회귀 트랜스포머 모델 계열의 경험적 스케일링 법칙을 연구했습니다. 50만 시간의 운전 데이터 세트를 사용하여 언어 모델링과 유사하게 모델 성능이 총 컴퓨팅 예산의 거듭제곱 법칙 함수로 향상되며, 모델 훈련 손실과 모델 평가 지표 간에 강한 상관 관계가 있음을 보여줍니다. 가장 흥미로운 점은 폐루프 지표도 스케일링에 따라 향상된다는 점이며, 이는 모델 개발 및 상향식 접근 방식에 대한 개방 루프 지표의 적합성에 중요한 의미를 갖습니다. 또한 훈련 컴퓨팅에 최적화된 모델에 대한 트랜스포머 매개변수 수와 훈련 데이터 크기의 최적 스케일링을 연구했습니다. 훈련 컴퓨팅 예산이 증가함에 따라 최적 스케일링에는 데이터 세트 크기보다 1.5배 빠르게 모델 크기를 늘리는 것이 필요하다는 것을 발견했습니다. 또한 추론 시간 컴퓨팅 스케일링을 연구했는데, 여기서 더 작은 모델의 출력을 샘플링하고 클러스터링하면 더 큰 모델과 경쟁력을 갖게 되며, 그 이상의 교차 지점을 넘어서면 더 큰 모델이 추론 컴퓨팅 효율이 더 높아짐을 알 수 있었습니다. 전반적으로 실험 결과는 모션 예측 및 계획 모델의 훈련 및 추론 시간 스케일링 특성을 최적화하는 것이 다양한 운전 시나리오를 해결하기 위해 성능을 향상시키는 주요 수단임을 보여줍니다. 마지막으로 다른 에이전트의 일반적인 기록된 운전 데이터를 사용하여 자아 에이전트의 성능을 향상시키는 유용성을 간략하게 연구했는데, 이는 대용량 모델 훈련을 위한 로봇 공학 데이터 부족 문제를 해결하는 중요한 연구 분야입니다.