Bài báo này so sánh và phân tích toàn diện hiệu suất của các Mô hình Không gian Trạng thái (SSM) và các mô hình lai để khắc phục những hạn chế của kiến trúc Transformer hiện có, nhằm đáp ứng nhu cầu ngày càng tăng về trí tuệ máy móc có thể xử lý cục bộ các đầu vào liên tục và ngữ cảnh dài. Cụ thể, chúng tôi tập trung vào việc đánh giá hiệu suất suy luận ngữ cảnh dài trên GPU nhúng và GPU tiêu dùng, đồng thời chứng minh rằng SSM hiệu quả hơn Transformer trong xử lý chuỗi dài. Chúng tôi xác nhận rằng nó có thể xử lý tới 220K mã thông báo trên GPU tiêu dùng 24GB và nhanh hơn Transformer tới 4 lần trong ngữ cảnh dài. Ngoài ra, chúng tôi tiết lộ rằng hạt nhân SSM nhận biết phần cứng chiếm hơn 55% thời gian thực hiện suy luận, cho thấy đây là mục tiêu chính cho việc tăng tốc phần cứng trong tương lai. Cuối cùng, chúng tôi có kế hoạch công bố một khuôn khổ đánh giá hiệu suất cùng với kết quả phân tích đặc điểm cụ thể của thiết bị để đồng thiết kế hệ thống.