분산 행렬 곱셈은 과학, 데이터 분석, AI 분야에서 중요한 응용 분야에 필수적이다. 다양한 분할 방식을 지원하는 기존 알고리즘의 한계를 극복하고자, 본 논문에서는 모든 분할 방식과 복제 인자를 지원하는 보편적인 일방향 알고리즘을 제안한다. 슬라이싱(인덱스 연산)을 사용하여 중첩 타일의 집합을 계산하고, 이를 직접 실행하거나 최적화된 IR로 재정렬하여 중첩을 최대화한다. C++ 기반 PGAS 프로그래밍 프레임워크를 사용하여 구현되었으며, GPU 간 직접 통신을 활용한다. 다양한 분할 방식과 복제 인자에 대한 성능 평가 결과, AI 모델을 위한 고도로 최적화된 분산 텐서 라이브러리인 PyTorch DTensor와 경쟁력 있는 성능을 보였다.