Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand
Created by
Haebom
저자
Korel Gundem, Zhengling Qi
개요
본 논문은 과거 수요 레벨에 의존하며 재고 초과 수요는 손실되는 오프라인 순차적 특징 기반 가격 및 재고 관리 문제를 연구합니다. 과거 가격, 주문 수량, 재고 레벨, 공변량 및 검열된 판매 레벨로 구성된 오프라인 데이터셋을 활용하여 장기적인 이윤을 극대화하는 최적의 가격 및 재고 관리 정책을 추정하는 것을 목표로 합니다. 검열이 없는 기본 동역학은 마르코프 의사결정 과정(MDP)으로 모델링될 수 있지만, 수요 검열이 존재하는 관측된 과정에서는 누락된 이윤 정보, 마르코프 특성의 실패, 비정상적인 최적 정책이라는 주요 장애물이 발생합니다. 이러한 과제를 극복하기 위해, 먼저 연속적인 검열 인스턴스의 수로 특징지어지는 고차 MDP를 풀어 최적 정책을 근사합니다. 이는 궁극적으로 이 문제에 맞게 조정된 특수한 벨만 방정식을 푸는 것으로 귀결됩니다. 오프라인 강화 학습과 생존 분석에서 영감을 얻어, 이러한 벨만 방정식을 풀고 최적 정책을 추정하기 위한 두 가지 새로운 데이터 기반 알고리즘을 제안합니다. 또한, 이러한 알고리즘의 효과를 검증하기 위해 유한 샘플 후회 경계를 설정합니다. 마지막으로, 최적 정책을 추정하는 알고리즘의 효능을 보여주는 수치 실험을 수행합니다. 저자의 지식에 따르면, 검열되고 의존적인 수요를 특징으로 하는 순차적 의사결정 환경에서 최적의 가격 및 재고 관리 정책을 학습하는 최초의 데이터 기반 접근 방식입니다. 제안된 알고리즘의 구현은 https://github.com/gundemkorel/Inventory_Pricing_Control 에서 확인할 수 있습니다.
시사점: 검열되고 의존적인 수요를 가진 순차적 의사결정 환경에서 최적의 가격 및 재고 관리 정책을 학습하는 최초의 데이터 기반 접근 방식을 제시합니다. 고차 MDP와 새로운 데이터 기반 알고리즘을 통해 검열 문제를 효과적으로 해결합니다. 유한 샘플 후회 경계를 통해 알고리즘의 효과를 이론적으로 뒷받침합니다.
•
한계점: 알고리즘의 성능은 고차 MDP의 차수 및 데이터의 질에 의존적일 수 있습니다. 실제 환경에서의 적용 가능성을 더욱 검증하기 위한 추가적인 실험이 필요합니다. 특히, 고차원 공변량이나 매우 복잡한 수요 패턴에 대한 알고리즘의 일반화 성능에 대한 추가 연구가 필요합니다. 현실적인 데이터셋의 크기와 복잡성을 고려했을 때 계산 비용이 상당할 수 있습니다.