본 논문은 온라인 광고의 입찰 최적화 문제를 다룬다. 실시간 경매를 통해 광고 슬롯을 확보하는 온라인 광고 환경에서, 사용자 행동의 확률적 특성과 변동성 있는 광고 트래픽으로 인해 최적 입찰 전략을 결정하는 것이 어렵다. 본 논문은 여러 슬롯의 2차 가격 경매에서 획득(예: 클릭, 전환)을 극대화하고 예산 및 CPA(Cost-Per-Acquisition) 제약 조건을 준수하는 자동 입찰 에이전트를 훈련하는 프레임워크를 제안한다. 캠페인 종료 후 최적 입찰을 비선형 목적 함수를 가진 다중 선택 배낭 문제(MCKP)로 공식화하고, 과거 및 미래 트래픽 데이터를 고려하여 거의 최적의 입찰 조합을 찾는 "오라클" 알고리즘을 제안한다. 이 오라클 솔루션을 실시간 정보만 접근 가능한 학습 네트워크의 훈련 목표로 사용하는 오라클 모방 학습(OIL) 기법을 제시한다. 실험 결과, OIL은 온라인 및 오프라인 강화 학습 알고리즘보다 우수한 성능과 샘플 효율성을 보임을 보여준다. OIL은 복잡한 학습 알고리즘 설계 대신 비선형 제약 최적화 문제를 효율적으로 해결하는 데 초점을 맞춘다.