Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Scaling Laws of Motion Forecasting and Planning - Technical Report

Created by
  • Haebom

저자

Mustafa Baniodeh, Kratarth Goel, Scott Ettinger, Carlos Fuertes, Ari Seff, Tim Shen, Cole Gulino, Chenjie Yang, Ghassen Jerfel, Dokook Choe, Rui Wang, Benjamin Charrow, Vinutha Kallem, Sergio Casas, Rami Al-Rfou, Benjamin Sapp, Dragomir Anguelov

개요

자율 주행 분야에서의 공동 모션 예측 및 계획 작업에 대한 인코더-디코더 자기 회귀 트랜스포머 모델 계열의 경험적 스케일링 법칙을 연구했습니다. 50만 시간의 운전 데이터 세트를 사용하여 언어 모델링과 유사하게 모델 성능이 총 컴퓨팅 예산의 거듭제곱 법칙 함수로 향상되며, 모델 훈련 손실과 모델 평가 지표 간에 강한 상관 관계가 있음을 보여줍니다. 가장 흥미로운 점은 폐루프 지표도 스케일링에 따라 향상된다는 점이며, 이는 모델 개발 및 상향식 접근 방식에 대한 개방 루프 지표의 적합성에 중요한 의미를 갖습니다. 또한 훈련 컴퓨팅에 최적화된 모델에 대한 트랜스포머 매개변수 수와 훈련 데이터 크기의 최적 스케일링을 연구했습니다. 훈련 컴퓨팅 예산이 증가함에 따라 최적 스케일링에는 데이터 세트 크기보다 1.5배 빠르게 모델 크기를 늘리는 것이 필요하다는 것을 발견했습니다. 또한 추론 시간 컴퓨팅 스케일링을 연구했는데, 여기서 더 작은 모델의 출력을 샘플링하고 클러스터링하면 더 큰 모델과 경쟁력을 갖게 되며, 그 이상의 교차 지점을 넘어서면 더 큰 모델이 추론 컴퓨팅 효율이 더 높아짐을 알 수 있었습니다. 전반적으로 실험 결과는 모션 예측 및 계획 모델의 훈련 및 추론 시간 스케일링 특성을 최적화하는 것이 다양한 운전 시나리오를 해결하기 위해 성능을 향상시키는 주요 수단임을 보여줍니다. 마지막으로 다른 에이전트의 일반적인 기록된 운전 데이터를 사용하여 자아 에이전트의 성능을 향상시키는 유용성을 간략하게 연구했는데, 이는 대용량 모델 훈련을 위한 로봇 공학 데이터 부족 문제를 해결하는 중요한 연구 분야입니다.

시사점, 한계점

시사점:
모델 성능이 총 컴퓨팅 예산의 거듭제곱 법칙 함수로 향상됨을 실증적으로 보여줌.
모델 훈련 손실과 모델 평가 지표 간 강한 상관관계 발견.
폐루프 지표도 스케일링에 따라 향상됨을 확인, 개방 루프 지표의 한계를 시사.
훈련 컴퓨팅 최적화를 위한 모델 크기 및 데이터 세트 크기의 최적 스케일링 전략 제시.
작은 모델의 출력 샘플링 및 클러스터링을 통한 추론 시간 컴퓨팅 효율 개선 가능성 제시.
다른 에이전트의 데이터 활용을 통한 자아 에이전트 성능 향상 가능성 제시.
한계점:
연구 대상이 특정 계열의 트랜스포머 모델에 국한됨.
50만 시간의 운전 데이터 세트 사용, 데이터의 일반화 가능성에 대한 추가 연구 필요.
폐루프 지표 개선에 대한 추가적인 분석 및 설명 필요.
다양한 운전 시나리오에 대한 일반화 성능에 대한 추가적인 검증 필요.
다른 에이전트의 데이터 활용에 대한 보다 심도있는 연구 필요.
👍