AI-Generated Bidding (AIGB)는 광고 성과 개선을 위한 도구로, 기존 오프라인 강화 학습 기반 자동 입찰 방식보다 우수한 성능을 보입니다. 그러나 기존 AIGB는 오프라인 데이터 범위를 벗어나는 탐색에 한계가 있습니다. 이를 해결하기 위해, 본 논문은 생성적 계획과 정책 최적화를 통합하는 새로운 방법인 AIGB-Pearl (Planning with Evaluator via RL)을 제안합니다. AIGB-Pearl은 생성 품질을 평가하기 위한 궤적 평가자를 구축하고, 안전하고 효율적인 탐색을 위해 KL-Lipschitz 제약 조건이 있는 점수 최대화 방식을 설계합니다. 동기식 결합 기술을 통합한 실용적인 알고리즘도 제안되었습니다. 시뮬레이션 및 실제 광고 시스템에 대한 광범위한 실험을 통해 제안된 방법의 최첨단 성능을 입증했습니다.
시사점, 한계점
•
AIGB-Pearl은 오프라인 데이터의 한계를 극복하기 위해 생성적 계획과 정책 최적화를 통합하여 성능을 향상시켰습니다.
•
KL-Lipschitz 제약 조건이 있는 점수 최대화 방식을 통해 안전하고 효율적인 탐색을 보장합니다.