本文提出了一个跨市场算法交易系统,该系统在严格合规性和执行质量之间取得平衡。该系统由一个高级规划器、一个强化学习执行代理和一个独立的合规代理组成。交易执行被表述为一个受约束的马尔可夫决策过程,其中包含参与限制、价格范围和自我交易规避等约束条件。执行代理使用近端策略优化进行训练,运行时操作屏蔽将所有不安全的操作投射到可执行集合中。为了在不暴露专有信号的情况下支持可审计性,我们添加了一个零知识合规审计层,该层可生成所有操作都满足约束条件的加密证明。我们在基于 ABIDES 的多环境模拟器上对该系统进行了评估,并将其与标准基准(例如,时间加权平均价格 (TWAP)、交易量加权平均价格 (VWAP))进行比较。学习到的策略降低了实施损失和方差,同时在延迟增加、部分执行、合规模块切换和各种约束条件等压力场景下保持不违反约束。结果使用配对 t 检验以 95% 的置信水平报告,并通过 CVaR 评估尾部风险。它处于最佳执行、安全强化学习、监管技术和可验证人工智能的交汇处,并讨论了道德考虑、Limitations(例如,建模假设和计算开销)和实际部署路径。