Vision-language-action (VLA) 모델의 성능은 훈련 시 사용되는 action chunk length(horizon)에 민감하며, 긴 horizon은 글로벌 예측 능력은 향상시키지만 세밀한 정확도를 저하시키고, 짧은 horizon은 로컬 제어는 강화하지만 장기적인 작업에 어려움을 겪는 trade-off가 존재한다. 이 문제를 해결하기 위해, 본 논문은 mixture of horizons (MoH) 전략을 제안한다. MoH는 action chunk를 다양한 horizon을 가진 여러 세그먼트로 나누어 병렬 처리하고, 공유된 action transformer를 사용하여 출력을 융합한다. MoH는 장기적인 예측 능력과 단기적인 정밀도를 결합하여 복잡한 작업에 대한 성능과 일반화 능력을 향상시키고, 최소한의 오버헤드로 full-attention action 모듈에 플러그 앤 플레이 방식으로 적용 가능하며, cross-horizon consensus를 통해 안정적인 action을 선택하는 동적 추론을 가능하게 하여, 높은 처리량을 유지하면서도 우수한 성능을 달성한다. 시뮬레이션 및 실제 작업에서 MoH의 효과를 입증했으며, 특히 혼합 작업 설정에서 MoH를 적용한 $\pi_{0.5}$는 LIBERO에서 99%의 평균 성공률을 달성하며 SOTA를 기록했다.