본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 발생하는 높은 계산 및 메모리 오버헤드 문제를 해결하기 위해, 의미론적 인식을 갖춘 병렬 디코딩 방법인 Plato를 제안합니다. Plato는 LLM을 활용하여 하위 문제들을 논리적 및 인과적 관계에 기반한 의존성 그래프로 구성하고, 의존성이 없는 노드들을 동시에 디코딩하여 답변의 일관성과 품질을 유지합니다. 또한, 계획 및 노드 디코딩 단계의 파이프라이닝, 글로벌 컨텍스트 캐시 구현, 노드 추론 프롬프트의 효율적인 구조 설계를 통해 효율성을 더욱 향상시킵니다. 실험 결과, Plato는 자동 회귀 디코딩 대비 처리량을 68% 향상시키는 동시에 답변 품질에서 40%의 순이익률을 달성했습니다. SoT와 비교했을 때는 90%의 품질 순이익률을 보였습니다. 추가적으로, ablation study를 통해 파이프라인 설계가 속도 향상에 29%, KV 캐시 재사용 최적화가 오버헤드 감소에 75% 기여하는 것을 확인했습니다.