Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

NuPlanQA: Bộ dữ liệu quy mô lớn và chuẩn mực cho việc hiểu cảnh lái xe đa góc nhìn trong các mô hình ngôn ngữ lớn đa phương thức

Created by
  • Haebom

Tác giả

Park Sung-Yeon, Can Cui, Yunsheng Ma, Ahmadreza Moradipari, Rohit Gupta, Kyungtae Han, Ziran Wang

Phác thảo

Bài báo này trình bày NuPlanQA-Eval, một chuẩn mực mới để đánh giá khả năng hiểu bối cảnh lái xe của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) và tập dữ liệu quy mô lớn NuPlanQA-1M. NuPlanQA-1M bao gồm 1 triệu cặp câu hỏi-trả lời trực quan (VQA) thực tế, được phân loại thành chín nhiệm vụ phụ thuộc vào ba kỹ năng cốt lõi: nhận dạng môi trường đường bộ, nhận dạng mối quan hệ không gian và lập luận vị kỷ. Hơn nữa, chúng tôi đề xuất BEV-LLM, tích hợp các đặc điểm góc nhìn từ trên xuống (BEV) từ hình ảnh đa góc nhìn vào MLLM, chứng minh rằng các MLLM thông thường gặp khó khăn trong việc điều khiển nhận dạng bối cảnh cụ thể và lập luận không gian từ các góc nhìn vị kỷ. BEV-LLM vượt trội hơn các mô hình khác ở sáu trong số chín nhiệm vụ phụ, chứng minh rằng việc kết hợp BEV cải thiện hiệu suất của các MLLM đa góc nhìn. Tập dữ liệu NuPlanQA được công khai.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một chuẩn mực mới (NuPlanQA-Eval) và một tập dữ liệu quy mô lớn (NuPlanQA-1M) để hiểu bối cảnh lái xe đa phương thức, đa góc nhìn.
Chúng tôi trình bày khả năng cải thiện hiệu suất hiểu cảnh lái xe của MLLM bằng cách tích hợp các tính năng BEV (BEV-LLM).
Làm rõ Limitations của việc nhận dạng bối cảnh lái xe và suy luận không gian của MLLM hiện có.
Chúng tôi dự đoán rằng nghiên cứu sâu hơn sẽ được thúc đẩy thông qua việc sử dụng các tập dữ liệu công khai.
Limitations:
Việc cải thiện hiệu suất của BEV-LLM được đề xuất có thể bị giới hạn ở một số tập dữ liệu nhất định.
Cần nghiên cứu thêm để khái quát hiệu suất trong nhiều môi trường và tình huống lái xe khác nhau.
Thực tế là nó hoạt động kém hơn các mô hình khác ở ba trong số chín nhiệm vụ phụ cho thấy cần phải cải thiện trong tương lai.
👍