본 논문은 역동적인 위험 기반 가격 책정이 건강 보험 및 소비자 신용과 같은 필수 자원에서 취약한 소비자 집단을 체계적으로 배제할 수 있다는 문제를 제기합니다. 연구진은 학습된 해석 가능한 세금 일정을 통해 규제 기관이 사적 인센티브를 사회적 목표와 일치시킬 수 있음을 보여줍니다. 각 기업의 지역적 인구 통계적 격차를 제한하는 것이 전반적인 탈퇴 불균형을 암시적으로 제한한다는 공식적인 제안을 통해 기업 수준의 처벌을 제시합니다. 이러한 통찰력을 바탕으로, 연구진은 이기적인 기업과 이질적인 소비자를 시뮬레이션하는 확장 가능한 오픈소스 시뮬레이터인 MarketSim을 도입하고, L1 정규화를 통해 단순 선형 사전에 가깝게 유지하면서 괄호가 있는 공정성 세금을 선택하는 강화 학습(RL) 사회 계획자(SP)를 훈련합니다. 학습된 정책은 투명하고 쉽게 해석 가능합니다. 미국 건강 보험 및 소비자 신용 시장이라는 두 개의 실증적으로 교정된 시장에서, 계획자는 규제되지 않은 자유 시장에 비해 수요 공정성을 최대 16%까지 높이는 동시에 명시적인 조정 없이 사회 복지를 극대화합니다. 이러한 결과는 AI 지원 규제가 경쟁적인 사회적 딜레마를 상생의 균형으로 전환할 수 있음을 보여주며, 공정성을 고려한 시장 감독을 위한 원칙적이고 실용적인 프레임워크를 제공합니다.