본 논문은 수화 번역(SLT)의 정확도 향상을 위한 새로운 프레임워크인 SignClip을 제안합니다. 기존 연구들이 주로 수화의 수동적 신호(손동작)에 집중하는 것과 달리, SignClip은 수동적 신호와 비수동적 신호(입 모양) 모두를 활용합니다. 특히 공간적 제스처와 입술 움직임 특징을 융합하고, 다수준 정렬 목표를 가진 계층적 대조 학습 프레임워크를 도입하여 수화-입술 및 시각-텍스트 모드 간의 의미적 일관성을 보장합니다. PHOENIX14T와 How2Sign 데이터셋을 이용한 실험 결과, SignClip이 기존 최고 성능 모델인 SpaMo를 능가하는 것을 보여줍니다. 예를 들어, PHOENIX14T Gloss-free 설정에서 BLEU-4는 24.32에서 24.71로, ROUGE는 46.57에서 48.38로 향상되었습니다.