본 논문은 변환에 대해 불변하는 표현과 등변하는 표현을 함께 학습하는 것이 유익하다는 점에 착안하여, 두 표현 간의 정보 공유를 간과하는 기존 방식의 한계를 지적한다. 이를 해결하기 위해, 프로젝션 헤드를 전문가로 모델링하는 라우팅 전략인 Soft Task-Aware Routing (STAR)을 제안한다. STAR은 전문가들이 공유 또는 작업별 정보를 캡처하도록 유도하여 중복된 특징 학습을 줄인다. 실험 결과는 다양한 전이 학습 작업에서 일관된 성능 향상을 보였다.