강화 학습 (RL)에서 보상 함수 설계의 어려움을 해결하기 위해, 만족 이론에서 영감을 받아 Test-driven Reinforcement Learning (TdRL) 프레임워크를 제안합니다. TdRL은 단일 보상 함수 대신 여러 테스트 함수를 사용하여 작업 목표를 정의합니다. TdRL은 pass-fail 테스트와 indicative 테스트를 통해 목표 정의와 학습 과정을 분리하여 작업을 더 쉽게 정의할 수 있도록 합니다. TdRL 프레임워크 내에서, 최적 궤적 세트에 가까운 궤적에 높은 반환값을 할당하는 궤적 반환 함수를 사용하면, 최대 엔트로피 정책 최적화를 통해 최적 정책 세트에 더 가까운 정책을 얻을 수 있음을 증명합니다. 궤적 반환 함수 학습을 위해 궤적과 최적 궤적 세트 간의 상대적 거리 관계를 비교하는 사전식 휴리스틱 접근 방식을 도입합니다. DeepMind Control Suite 벤치마크 실험 결과, TdRL은 정책 훈련에서 수작업으로 설계된 보상 방법과 동등하거나 더 나은 성능을 보이며, 설계의 단순성이 향상되었고 다중 목표 최적화를 자연스럽게 지원합니다.