본 논문은 베트남어-영어 코드 전환(CS) 자동 음성 인식(ASR)을 위한 새로운 아키텍처인 Two-Stage Phoneme-Centric model (TSPC)을 제안합니다. TSPC는 확장된 베트남어 음소 집합을 중간 표현으로 사용하는 음소 중심 접근 방식을 채택하여 혼합 언어 모델링을 용이하게 합니다. 기존의 베이스라인 모델들(예: PhoWhisper-base)보다 우수한 성능을 보이며, 제한된 학습 자원으로도 20.8%의 낮은 단어 오류율을 달성합니다. 또한, 음성 기반의 2단계 아키텍처는 복잡한 베트남어-영어 CS ASR 시나리오에서 음소 적응 및 언어 변환을 통해 ASR 성능을 향상시킵니다. 특히 베트남어와 영어는 서로 다른 음운적 특징과 유사한 음소 인식으로 인한 모호성이 존재하는 언어쌍이기 때문에, 이러한 어려움을 해결하는 데 초점을 맞추고 있습니다.