본 논문은 매우 긴 입력 시퀀스의 문제를 해결하기 위해 Transformer의 어텐션 메커니즘에 편미분 방정식(PDE)을 도입한 새로운 프레임워크인 Continuous_Time Attention을 제안합니다. 기존의 정적인 어텐션 매트릭스에 의존하는 대신, 확산, 파동 또는 반응-확산 역학을 통해 의사 시간 차원에서 어텐션 가중치가 진화하도록 합니다. 이 메커니즘은 국소적인 노이즈를 체계적으로 완화하고, 장거리 의존성을 강화하며, 기울기 흐름을 안정화시킵니다. 이론적으로, PDE 기반 어텐션은 더 나은 최적화 지형과 지수 감소가 아닌 다항 감소의 원거리 상호 작용을 가져온다는 분석 결과를 보여줍니다. 실험적으로, 다양한 실험에서 기존 및 특수한 긴 시퀀스 Transformer 변형에 비해 일관된 성능 향상을 보여줍니다. 본 연구 결과는 PDE 기반 공식이 연속 시간 역학과 전역 일관성으로 어텐션 메커니즘을 풍부하게 할 수 있는 가능성을 강조합니다.