본 논문에서는 사전에 동일한 도메인 역학 아래 서로 다른 보상 함수를 기반으로 학습된 하나 이상의 기존 행동을 바탕으로 목표 보상 함수에 적응하는 보상 적응(RA) 문제에 대한 새로운 해결책을 제시합니다. 목표 행동을 처음부터 학습하는 것은 가능하지만, 기존 행동을 고려할 때 비효율적일 수 있습니다. 본 연구는 Q-함수 조작을 통한 RA에 대한 새로운 접근 방식을 제시합니다. 목표 보상 함수가 소스 보상 함수의 알려진 함수라고 가정하면, 본 접근 방식은 Q-함수의 경계를 계산합니다. 값 반복과 유사하게 경계를 강화하는 반복적인 과정을 도입합니다. 이를 통해 학습이 시작되기 전에 목표 도메인에서 액션 가지치기가 가능합니다. 이러한 방법을 Q-조작(Q-M)이라고 합니다. 제시된 가지치기 전략이 반환된 정책의 최적성에 영향을 미치지 않음을 공식적으로 증명하고, 경험적으로 샘플 복잡성을 개선함을 보여줍니다. Q-M은 다양한 합성 및 시뮬레이션 도메인에서 평가되어 효과, 일반화 가능성 및 실용성을 입증합니다.