本文提出了 EvoGP,一个用于基于树的遗传编程 (TGP) 的 GPU 加速的高性能框架。EvoGP 解决了诸如程序对象的结构异构性、集成多级并行性的复杂性以及高性能 CUDA 执行与灵活的 Python 环境之间的不兼容性等挑战。EvoGP 通过利用张量化表示、自适应并行策略以及嵌入在 PyTorch 运行时中的自定义 CUDA 内核来实现 GPU 加速。实验结果表明,EvoGP 的吞吐量高达 $10^{11}$ GPops/s,与基于 GPU 的 TGP 实现相比,速度提升高达 $528 倍,与基于 CPU 的库相比,速度提升高达 $18 倍。EvoGP 还支持与各种基于 Python 的环境集成。