본 논문은 AI 소프트웨어 개발의 표준 언어인 Python에서 병렬 처리 성능을 향상시키기 위한 새로운 방법을 제시합니다. 기존의 PyTorch나 TensorFlow와 같은 라이브러리는 저수준 BLAS 백엔드의 병렬화에 의존하여 속도 향상을 얻지만, 이는 성능 저하 및 확장성 문제를 야기할 수 있습니다. 본 연구에서는 비동기식 런타임 모델 HPX 기반의 C++ 코드를 pybind11을 사용하여 고수준 Python API에 바인딩하는 새로운 방법을 제시합니다. 이를 통해 가우시안 프로세스(GP) 라이브러리 GPRat을 개발하여 기존 GP 라이브러리의 사용 편의성과 비동기식 런타임 시스템의 성능 및 확장성을 결합했습니다. 질량-스프링-댐퍼 시스템을 이용한 실험 결과, GPRat은 GPyTorch와 GPflow에 비해 최대 64코어 AMD EPYC 7742 CPU에서 뛰어난 확장성을 보였으며, 예측 속도 또한 GPyTorch보다 7.63배, GPflow보다 25.25배 향상됨을 확인했습니다. 특징의 수를 늘렸을 때에도 상당한 속도 향상을 보였습니다.