본 논문은 사전 훈련된 언어 모델(PLM)의 언어 지식을 음향 특징 학습에 전달하여 엔드투엔드 자동 음성 인식(E2E-ASR) 성능을 향상시키는 연구에 관한 것이다. 기존 최적 수송(OT) 기반 방법들이 언어 및 음향 모달리티 간의 차이를 해소하는 데 효과적이었지만, 특징 벡터를 순서 없는 집합으로 취급하여 구조적 관계를 고려하지 못하는 한계를 지닌다. 이를 해결하기 위해 본 논문에서는 언어 및 음향 시퀀스를 구조화된 그래프로 모델링하는 그래프 매칭 최적 수송(GM-OT)을 제안한다. GM-OT는 노드 간의 Wasserstein 거리(WD)와 에지 간의 Gromov-Wasserstein 거리(GWD)를 모두 최소화하는 융합 Gromov-Wasserstein 거리(FGWD) 공식을 사용하여 구조적 정렬 및 효율적인 지식 전달을 가능하게 한다. 만다린어 ASR에 대한 실험 결과, 제안된 방법이 기존 최첨단 모델보다 성능이 크게 향상됨을 보여준다.