Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning

Created by
  • Haebom

저자

Xiaodong Mei, Sheng Wang, Jie Cheng, Yingbing Chen, Dan Xu

개요

본 논문은 자율주행 시스템에서 주변 에이전트의 미래 궤적을 정확하게 예측하는 운동 예측 문제를 다룹니다. 기존 접근 방식은 과거 에이전트 궤적과 도로 레이아웃에서 추출된 장면 컨텍스트 특징을 사용하여 미래 운동 상태를 예측하지만, 장면 특징 인코딩 과정에서 정보 저하 문제가 있습니다. 이를 해결하기 위해, 본 논문에서는 장면 컨텍스트 인코딩과 함께 미래 운동 표현을 학습하여 장면 이해와 미래 운동 상태 예측을 일관되게 결합하는 새로운 운동 예측 프레임워크인 HAMF를 제안합니다. 관측된 에이전트 상태와 지도 정보를 1D 토큰 시퀀스로 임베딩하고, 목표 다중 모드 미래 운동 특징을 학습 가능한 토큰 집합으로 함께 사용합니다. 그런 다음, 자기 주의 메커니즘과 교차 주의 메커니즘을 시너지 효과적으로 결합하여 장면 컨텍스트 정보를 모델링하고 미래 운동 특징을 공동으로 집계하는 통합 주의 기반 인코더를 설계합니다. 인코더를 보완하기 위해, 디코딩 단계에서 Mamba 모듈을 구현하여 학습된 미래 운동 표현 간의 일관성과 상관관계를 더욱 유지하고 정확하고 다양한 최종 궤적을 생성합니다. Argoverse 2 벤치마크에 대한 광범위한 실험을 통해, 제안된 하이브리드 Attention-Mamba 모델이 간단하고 가벼운 아키텍처로 최첨단 운동 예측 성능을 달성함을 보여줍니다.

시사점, 한계점

시사점:
장면 컨텍스트 인코딩과 미래 운동 표현 학습을 통합하여 정보 저하 문제를 해결하고 정확도를 향상시켰습니다.
주의 메커니즘과 Mamba 모듈을 효과적으로 활용하여 미래 운동 예측의 정확성과 다양성을 개선했습니다.
간단하고 가벼운 아키텍처로 최첨단 성능을 달성하여 실제 자율주행 시스템에 적용 가능성을 높였습니다.
한계점:
Argoverse 2 데이터셋에 대한 실험 결과만 제시되어 다른 데이터셋에 대한 일반화 성능은 추가 검증이 필요합니다.
Mamba 모듈의 구체적인 작동 원리와 설계 과정에 대한 설명이 부족하여 이해도를 높일 필요가 있습니다.
실시간 처리 성능에 대한 평가가 부족합니다.
👍