Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits

Created by
  • Haebom

저자

Ailiya Borjigin, Cong He

개요

본 논문은 엄격한 규정 준수와 실행 품질의 균형을 맞춘 교차 시장 알고리즘 트레이딩 시스템을 제시한다. 이 시스템은 고차원 플래너, 강화 학습 실행 에이전트, 독립적인 규정 준수 에이전트로 구성된다. 거래 실행은 참여 제한, 가격대, 자체 거래 회피에 대한 제약 조건을 가진 제약 마르코프 의사 결정 프로세스(Markov decision process)로 공식화된다. 실행 에이전트는 근접 정책 최적화(Proximal Policy Optimization)를 사용하여 훈련되며, 런타임 액션 쉴드(action-shield)는 안전하지 않은 모든 액션을 실행 가능한 집합으로 투영한다. 독점 신호를 노출하지 않으면서 감사 가능성을 지원하기 위해, 모든 액션이 제약 조건을 충족했는지에 대한 암호화 증명을 생성하는 제로 지식 규정 준수 감사 레이어를 추가했다. ABIDES 기반의 다중 환경 시뮬레이터에서 평가했으며, 표준 기준(예: TWAP, VWAP)과 비교했다. 학습된 정책은 구현 손실 및 분산을 줄이는 동시에, 지연 시간 증가, 부분 채움, 규정 준수 모듈 전환, 다양한 제약 조건 제한과 같은 스트레스 시나리오에서 제약 위반이 관찰되지 않았다. Paired t-test를 사용하여 95% 신뢰 수준에서 결과를 보고하고, CVaR을 통해 테일 리스크를 검토한다. 최적 실행, 안전한 강화 학습, 규제 기술, 검증 가능한 AI의 교차점에 위치하며, 윤리적 고려 사항, 한계점(예: 모델링 가정 및 계산 오버헤드), 실제 배포 경로에 대해 논의한다.

시사점, 한계점

시사점:
엄격한 규정 준수를 유지하면서 실행 품질을 향상시키는 알고리즘 트레이딩 시스템 개발.
강화 학습 기반의 실행 에이전트를 통해 시장 상황에 적응하고 최적의 거래 전략을 도출.
제로 지식 증명을 활용하여 규정 준수 감사의 투명성과 보안성을 확보.
다양한 스트레스 시나리오에서의 강력한 성능 검증.
한계점:
모델링 가정의 한계: 실제 시장 환경을 완벽하게 반영하지 못할 수 있음.
계산 오버헤드: 제로 지식 증명 및 복잡한 알고리즘으로 인한 높은 계산 비용.
실제 배포의 어려움: 실제 환경에서의 성능 검증 필요성 및 규제 요구 사항 충족의 어려움.
알고리즘 트레이딩 시스템 의존성에 따른 윤리적 문제 발생 가능성.
👍