본 논문은 강화 학습에서 복잡한 작업 해결 능력을 보이는 에이전트 기반 Transformer의 높은 계산 복잡도와 에너지 소모 문제를 해결하기 위해, 에너지 효율적인 스파이킹 신경망(SNN)을 활용한 새로운 Spike-Transformer 강화 학습(STRL) 알고리즘을 제안한다. 다중 단계 Leaky Integrate-and-Fire (LIF) 뉴런과 여러 시간 단계에 걸친 시공간 패턴을 처리할 수 있는 어텐션 메커니즘을 사용하는 SNN을 설계하고, 상태, 행동, 보상 인코딩을 추가하여 강화 학습 작업에 최적화된 Transformer 유사 구조를 구현하였다. 최첨단 벤치마크에 대한 실험 결과, 제안된 SNN Transformer가 기존 에이전트 기반 Transformer보다 정책 성능이 크게 향상되었음을 보여준다. 이는 에너지 효율성과 정책 최적성을 모두 향상시켜, 생물학적 영감을 받은 저비용 머신러닝 모델을 복잡한 실제 의사결정 시나리오에 배포하는 유망한 방향을 제시한다.