본 논문은 베트남어-영어 코드 전환(CS) 음성 인식(ASR)을 위한 새로운 아키텍처인 Two-Stage Phoneme-Centric model (TSPC)을 제안한다. TSPC는 확장된 베트남어 음소 집합을 중간 표현으로 사용하는 음소 중심 접근 방식을 채택하여 혼합 언어 모델링을 용이하게 한다. 실험 결과, TSPC는 PhoWhisper-base를 포함한 기존 기준 모델보다 베트남어-영어 CS ASR에서 상당히 낮은 단어 오류율(19.9%)을 달성하며, 적은 훈련 자원으로도 우수한 성능을 보임을 보여준다. 또한, 음성 기반의 2단계 아키텍처는 복잡한 CS 베트남어-영어 ASR 시나리오에서 음소 적응 및 언어 변환을 통해 ASR 성능을 향상시킨다.