본 논문은 최근 몇 년 동안 비미분 가능한 목표 함수를 극대화하기 위해 심층 신경망을 최적화하는 데 강화 학습(RL)이 유망한 대안으로 떠오른 점을 설명합니다. 기존의 지도 학습 방식이 비미분 가능한 목적 함수(예: IoU, BLEU 점수, 보상)에는 적용될 수 없다는 점을 지적하며, 미분 가능한 대체 손실 함수를 사용하는 기존의 해결책이 실제 목적 함수에 대해 최적이 아닌 해를 초래한다는 문제점을 제기합니다. 논문은 기존의 RL 교재와는 달리, 표 형태의 문제에 초점을 맞추는 대신 지도 학습의 일반화로서 RL을 소개하여 비미분 가능한 목적 함수와 시간적 문제에 RL을 적용하는 방법을 설명합니다. 지도 학습에 대한 기본적인 지식만으로도 PPO와 같은 최첨단 심층 RL 알고리즘을 이해할 수 있도록 돕는 튜토리얼을 제공하는 것을 목표로 합니다.