본 논문은 로봇의 손 안 조작(in-hand manipulation)과 파지(grasping)를 통합적으로 다루는 방법을 제시합니다. 기존 강화학습 기반 손 안 조작 제어기는 초기 파지 상태를 사람이 설정해야 하는 한계가 있었는데, 본 논문에서는 강화학습 에이전트의 critic network를 활용하여 초기 파지의 안정성과 조작 목표 달성 가능성을 평가하고, 적절한 파지를 선택하는 방법을 제안합니다. 실험 결과, 추가적인 학습 없이 손 안 조작 성공률을 크게 높였으며, 실제 로봇 시스템에서 복잡한 물체의 자율적 파지 및 재배치를 성공적으로 수행하는 파이프라인을 구현했습니다.