Transformer의 2차 계산 복잡성은 뛰어난 성능에도 불구하고 확장성을 제한한다. 선형 어텐션은 이 문제를 선형 복잡성으로 줄이지만, 처음부터 이러한 모델을 사전 훈련하는 것은 대부분의 경우 비용이 많이 든다. 최근의 사후 훈련 선형화 방법은 사전 훈련된 Transformer를 선형 모델로 효율적으로 변환하며, 종종 슬라이딩 윈도우 소프트맥스와 선형 어텐션을 결합하는 하이브리드 방식을 사용한다. 본 연구는 기존 하이브리드 방식이 의도치 않게 선형 구성 요소를 우회하고 SWA에 거의 전적으로 의존하는 치명적인 결함을 발견했다. 구성 요소 수준의 진단을 통해 이러한 이전에는 감지되지 않았던 동작이 일반적인 상식 벤치마크에 대한 간과된 평가 관행에서 비롯됨을 밝혀냈다. 본 연구는 균형 잡힌 구성 요소 사용을 보장하기 위해 (i) 슬라이딩 윈도우 소프트맥스를 사용한 선형 전용 변환의 추론 시간 하이브리드화, (ii) 어텐션 가중치 전송과 대상 LoRA 미세 조정을 결합한 HedgeCATs, (iii) 구성 요소 붕괴를 방지하기 위해 훈련 중 소프트맥스 브랜치를 확률적으로 억제하는 Scheduled Sliding-window Dropout (SSD)의 세 가지 해결책을 제안한다. 제안된 방법은 계산 효율성을 유지하면서 대부분의 기본 모델 성능을 회복하고 진정한 선형 어텐션 채택을 보장하여 하이브리드 변환에서 성능 귀속의 유효성을 회복한다.