본 논문은 도시 지역의 효율적인 라스트 마일 배송의 증가하는 필요성을 해결하기 위해 중앙 집중식 크라우드 배송 시스템에서 매장 고객을 배송 배달원으로 활용하는 방안을 조사합니다. 오프라인 소매점 환경에서 쇼핑객들에게 시간에 민감한 온라인 주문 배송에 대한 보상을 제공하는 시나리오를 고려합니다. 주문과 크라우드 배송원의 확률적 도착, 배송 제안의 확률적 수락 등 주요 불확실성을 포착하는 마르코프 의사결정 과정(MDP) 모델을 제안합니다. 적응적 주문-쇼핑객 할당을 위한 신경 근사 동적 프로그래밍(NeurADP)과 동적 가격 책정을 위한 심층 이중 Q 네트워크(DDQN)를 통합하는 해결책을 제시합니다. 이 통합 최적화 전략은 다중 목적지 경로 설정을 가능하게 하고 제안 수락 불확실성을 고려하여 실제 운영에 더욱 부합합니다. 실험 결과는 통합 NeurADP + DDQN 정책이 배송 비용 효율성을 크게 향상시켜 NeurADP와 고정 가격을 사용하는 경우보다 최대 6.7% 절감하고, 단순 기준선보다 약 18% 절감함을 보여줍니다. 또한, 유연한 배송 지연 허용 및 다중 목적지 경로 설정을 통해 운영 비용을 각각 8% 및 17% 추가로 절감할 수 있음을 보여줍니다. 이러한 결과는 크라우드 배송 시스템에서 동적이고 미래 지향적인 정책의 장점을 강조하고 도시 물류 운영자에게 실용적인 지침을 제공합니다.