본 논문은 자원 제약 하에서의 온라인 의사결정 문제를 연구합니다. 보상 및 비용 함수는 시간에 따라 적대적으로 변할 수 있는 분포에서 추출됩니다. 두 가지 대표적인 설정, 즉 (i) 행동 선택 전에 보상과 비용이 관찰되는 온라인 자원 할당과 (ii) 행동 선택 후에 보상과 비용이 관찰되는 완전 피드백 또는 밴딧 피드백 하의 자원 제약이 있는 온라인 학습에 초점을 맞춥니다. 보상 및 비용 분포가 시간에 따라 임의로 변할 수 있는 경우 이러한 설정에서 선형 이하의 후회를 달성하는 것은 불가능하다는 것이 잘 알려져 있습니다. 이러한 문제를 해결하기 위해 학습자가 소비 계획(각 라운드에 걸친 예상 자원 사용량을 규정하는 시퀀스)에 따라 안내되는 프레임워크를 분석합니다. 소비 계획을 따르는 기준에 대해 선형 이하의 후회를 달성하는 일반적인 (프라이멀-)이중 방법을 설계합니다. 중요한 것은 알고리즘의 성능이 소비 계획이 라운드에 걸쳐 균형 잡힌 자원 분배를 보장할 때 향상된다는 점입니다. 또한 소비 계획이 매우 불균형한 최악의 시나리오를 처리하기 위한 강력한 변형 알고리즘을 제공합니다. 마지막으로, 규정된 소비 계획에서 벗어나는 벤치마크와 경쟁할 때 알고리즘의 후회를 연구합니다.