본 논문은 의사 결정에서 인간-AI 보완성의 중요한 과제를 다룬다. 알고리즘 성능에 초점을 맞추는 대신 인간-AI 팀의 성과에 집중하고, 협업을 분류가 아닌 의사 결정 작업으로 접근하여 정책 학습에 대한 새로운 접근 방식을 제시한다. 특히, 결과가 할당된 행동 하에서만 관찰될 때 인간-AI 협업을 위한 견고한 해결책을 개발한다. 인간과 AI의 뚜렷한 강점을 활용하여 인스턴스를 전략적으로 할당함으로써 의사 결정 보상을 극대화하는 deferral 협업 접근 방식을 제안한다. 제안된 방법은 인간 행동 및 보상 모델 모두의 오차 지정에 강력하다. 인간과 AI의 서로 다른 행동 패턴에서 성능 향상이 발생한다는 통찰력을 활용하여, 합성 및 실제 인간 응답을 사용하여 제안된 방법이 독립적인 인간 및 알고리즘 의사 결정을 크게 능가함을 보여준다. 또한, 소수의 인스턴스만 인간 의사 결정자에게 라우팅하여 상당한 성능 향상을 달성할 수 있음을 보여주며, 복잡한 관리 환경에서 효율적이고 효과적인 인간-AI 협업의 가능성을 강조한다.