음성에서 심리적 스트레스를 감지하는 것은 압박이 심한 환경에서 매우 중요하다. 기존 연구는 음향적 특징을 활용하여 스트레스를 감지했지만, 대부분 스트레스를 정적인 레이블로 취급했다. 본 연구에서는 스트레스를 과거 감정 상태의 영향을 받는 시간적 변화 현상으로 모델링한다. 감정 레이블에서 세분화된 스트레스 주석을 파생하는 동적 레이블링 전략을 제안하고, 시간적 스트레스 진행을 포착하기 위해 단방향 LSTM 및 Transformer Encoder 기반의 교차 주의 시퀀스 모델을 도입한다. MuSE (+5%) 및 StressID (+18%) 데이터셋에서 기존 기반선 대비 상당한 정확도 향상을 달성했으며, 맞춤형 실제 데이터셋에서도 잘 일반화되었다. 이 결과는 음성에서 스트레스를 동적 구성 요소로 모델링하는 것의 가치를 강조한다.