GContextFormer: A global context-aware hybrid multi-head attention approach with scaled additive aggregation for multimodal trajectory prediction
Created by
Haebom
Category
Empty
저자
Yuzhi Chen, Yuanchang Xie, Lei Zhao, Pan Liu, Yajie Zou, Chen Wang
개요
GContextFormer는 지도 의존적인 모델의 단점과 지도 없는 모델의 한계를 극복하기 위해 제안된 플러그 앤 플레이 방식의 인코더-디코더 아키텍처입니다. 이 모델은 글로벌 컨텍스트를 인식하는 하이브리드 어텐션과 스케일링된 가산 집계를 사용하여 의도에 맞춰진 다중 모드 예측을 수행합니다. Motion-Aware Encoder는 장면 수준의 의도 사전 지식을 구축하고, Hierarchical Interaction Decoder는 사회적 추론을 수행합니다. TOD-VT 데이터셋의 8가지 고속도로-램프 시나리오에 대한 실험에서 GContextFormer는 기존 모델보다 우수한 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
지도 의존성 없이 다중 모드 예측을 수행하여 데이터 획득 비용, 업데이트 지연, 입력 손상에 대한 취약성을 극복합니다.
◦
글로벌 컨텍스트를 활용하여 motion-intention misalignment 문제를 해결합니다.
◦
고속도로-램프 시나리오에서 기존 모델보다 뛰어난 성능을 보이며, 특히 고곡률 및 전환 영역에서 강점을 보입니다.
◦
모듈식 아키텍처로 인해 다른 도메인에서의 다중 모드 추론 작업으로의 확장이 가능합니다.
◦
Motion mode distinction 및 neighbor context modulation을 통해 해석 가능성을 제공합니다.