정렬된 대규모 언어 모델(LLM)의 다양성 감소 문제를 해결하기 위해, 추론 시 토큰 레벨에서 기본 LLM과 정렬된 LLM을 동적으로 결합하는 'Base-Aligned Model Collaboration (BACo)' 프레임워크를 제안합니다. BACo는 차기 토큰 예측 불확실성과 예측된 내용의 의미적 역할을 기반으로 각 토큰에 대해 어떤 모델에서 디코딩할지 결정하는 라우팅 전략을 사용합니다. 이 프레임워크는 단일 패스 내에서 높은 다양성과 품질을 동시에 달성하며 강력한 제어 기능을 제공합니다. 3가지 개방형 생성 작업과 13가지 메트릭을 통해 다양한 라우팅 전략을 실험한 결과, BACo는 최첨단 추론 시간 기준선을 지속적으로 능가했으며, 특히 최적의 라우터는 다양성과 품질에서 21.3%의 결합된 향상을 보였습니다. 인간 평가에서도 이러한 개선 사항이 확인되었습니다.