본 논문은 자율주행 시스템에서 주변 에이전트의 미래 궤적을 정확하게 예측하는 운동 예측 문제를 다룹니다. 기존 접근 방식은 과거 에이전트 궤적과 도로 레이아웃에서 추출된 장면 컨텍스트 특징을 사용하여 미래 운동 상태를 예측하지만, 장면 특징 인코딩 과정에서 정보 저하 문제가 있습니다. 이를 해결하기 위해, 본 논문에서는 장면 컨텍스트 인코딩과 함께 미래 운동 표현을 학습하여 장면 이해와 미래 운동 상태 예측을 일관되게 결합하는 새로운 운동 예측 프레임워크인 HAMF를 제안합니다. 관측된 에이전트 상태와 지도 정보를 1D 토큰 시퀀스로 임베딩하고, 목표 다중 모드 미래 운동 특징을 학습 가능한 토큰 집합으로 함께 사용합니다. 그런 다음, 자기 주의 메커니즘과 교차 주의 메커니즘을 시너지 효과적으로 결합하여 장면 컨텍스트 정보를 모델링하고 미래 운동 특징을 공동으로 집계하는 통합 주의 기반 인코더를 설계합니다. 인코더를 보완하기 위해, 디코딩 단계에서 Mamba 모듈을 구현하여 학습된 미래 운동 표현 간의 일관성과 상관관계를 더욱 유지하고 정확하고 다양한 최종 궤적을 생성합니다. Argoverse 2 벤치마크에 대한 광범위한 실험을 통해, 제안된 하이브리드 Attention-Mamba 모델이 간단하고 가벼운 아키텍처로 최첨단 운동 예측 성능을 달성함을 보여줍니다.