본 논문은 긴 시퀀스 처리에서 계산 비용이 많이 드는 Transformer 모델의 제약을 해결하기 위해, 선형 시간 복잡도 O(n)을 갖는 새로운 메커니즘인 Wavelet-Enhanced Random Spectral Attention (WERSA)를 제안합니다. WERSA는 콘텐츠 적응형 랜덤 스펙트럼 특징과 다중 해상도 Haar wavelet, 학습 가능한 파라미터를 결합하여 정보가 풍부한 데이터 스케일을 선택적으로 처리하면서 선형 효율성을 유지합니다. 다양한 벤치마크(비전, NLP, 계층적 추론)와 여러 어텐션 메커니즘(Multiheaded Attention, Flash-Attention-2, FNet, Linformer, Performer, Waveformer)에 대한 대규모 비교 결과, WERSA는 모든 테스트에서 최고의 정확도를 달성했습니다. 특히, ArXiv 분류 작업에서 기존 어텐션보다 정확도를 1.2% 향상(86.2% vs 85.0%)시키면서 훈련 시간을 81%(296초 vs 1554초), FLOPS를 73.4%(26.2G vs 98.4G) 감소시켰습니다. 또한, 기존 및 FlashAttention-2가 실패하는 매우 긴 시퀀스인 ArXiv-128k 데이터셋에서도 최고의 정확도(79.1%)와 AUC(0.979)를 달성했으며, 메모리 오류를 발생시키는 기존 방법들보다 두 배 빠른 속도를 보였습니다. 결론적으로 WERSA는 정확도 저하 없이 계산 부하를 크게 줄여 저성능 하드웨어에서도 실용적이고 저렴한 장문맥 모델을 가능하게 하여 지속 가능하고 확장 가능한 AI 개발에 기여합니다.