본 논문은 온라인 광고 플랫폼의 자동 입찰 알고리즘 문제를 다룹니다. 기존 알고리즘들이 플랫폼이 직면하는 문제를 정확히 포착하지 못한다는 점을 지적하며, 플랫폼은 각 광고주의 성과를 최대화하면서(ϵ-Nash Equilibrium 필요) 동시에 모든 광고주의 사회적 후생을 극대화해야 한다고 주장합니다. 이를 위해, 플랫폼 관점에서 자동 입찰 문제를 새롭게 정의한 Nash-Equilibrium Constrained Bidding (NCB)을 제시합니다. NCB는 ϵ-NE 제약 조건 하에서 모든 광고주의 사회적 후생을 극대화하는 것을 목표로 합니다. 이 문제의 어려움을 해결하기 위해, 이론적 보장을 갖춘 Bi-level Policy Gradient (BPG) 프레임워크를 제안합니다. BPG는 광고주 수와 무관한 계산 복잡도를 가지며, 기울기 계산이 간편합니다. 시뮬레이션 및 실제 환경 실험을 통해 BPG 프레임워크의 효과를 검증합니다.