본 논문은 단일 지향성 금지 구역을 가진 우주선의 재정렬 제어를 위해 심층 강화 학습 (DRL)을 구현한다. 연속적인 상태 및 행동 공간을 처리하기 위해 Soft Actor-Critic (SAC) 알고리즘을 채택했다. 자세 제한 구역의 간결한 표현을 명시적으로 포함하도록 새로운 상태 표현을 설계했다. 자세 제약 조건을 적용하면서 제어 목표를 달성하기 위해 보상 함수를 구성했다. 에이전트 훈련을 위해 커리큘럼 학습 접근 방식을 사용했다. 시뮬레이션 결과는 제안된 DRL 기반 방법의 우주선 지향성 제약 자세 제어에 대한 효과를 보여준다.