본 논문은 자원 제약 하에서의 온라인 의사결정 문제를 연구합니다. 보상 및 비용 함수는 시간에 따라 임의로 변할 수 있는 분포에서 추출됩니다. 두 가지 대표적인 설정, 즉 (i) 행동 선택 전에 보상과 비용이 관찰되는 온라인 자원 할당 및 (ii) 행동 선택 후에 보상과 비용이 관찰되는, 완전 피드백 또는 밴딧 피드백 하의 자원 제약이 있는 온라인 학습에 초점을 맞춥니다. 보상 및 비용 분포가 시간에 따라 임의로 변할 수 있는 경우 이러한 설정에서 선형 이하의 후회를 달성하는 것은 불가능하다는 것이 잘 알려져 있습니다. 이러한 문제를 해결하기 위해 학습자가 소비 계획(각 라운드의 예상 자원 사용량을 규정하는 시퀀스)에 따라 안내되는 프레임워크를 분석합니다. 소비 계획을 따르는 기준에 대해 선형 이하의 후회를 달성하는 일반적인 (프라이멀-)듀얼 메서드를 설계합니다. 중요한 것은 알고리즘의 성능이 소비 계획이 라운드에 걸쳐 균형 잡힌 자원 분배를 보장할 때 향상된다는 점입니다. 또한 소비 계획이 매우 불균형적인 최악의 시나리오를 처리하기 위한 강력한 변형 메서드를 제공합니다. 마지막으로, 규정된 소비 계획에서 벗어나는 벤치마크와 경쟁할 때 알고리즘의 후회를 연구합니다.