본 논문은 장기간 로봇 조작 작업, 특히 희소 보상이 포함된 작업에서 기존 강화 학습(RL) 방법의 어려움을 해결하기 위해, 연속적인 동작 청크를 안정적이고 데이터 효율적으로 학습하는 새로운 RL 프레임워크인 AC3(Actor-Critic for Continuous Chunks)를 제안합니다. AC3는 고차원 연속 동작 시퀀스를 생성하도록 학습하며, 이를 위해 액터와 크리틱 모두에 안정화 메커니즘을 통합합니다. 액터는 성공적인 궤적만으로 학습하는 비대칭 업데이트 규칙을 사용하여 신뢰할 수 있는 정책 개선을 보장하고, 크리틱은 청크 내부 n-step 수익과 앵커 포인트에 자기 지도 학습 모듈을 통해 얻은 내재적 보상을 사용하여 희소 보상에도 효과적인 가치 학습을 가능하게 합니다. BiGym과 RLBench 벤치마크의 25개 작업에 대한 실험 결과, AC3는 소수의 시연과 간단한 모델 아키텍처만으로 대부분의 작업에서 우수한 성공률을 달성함을 보여줍니다.