본 논문은 긴, 다듬어지지 않은 인체 골격 동작 시퀀스로부터 다양한 동작을 분할하고 인식하는 골격 기반 시간적 동작 분할(STAS) 문제를 다룬다. 기존 STAS 방법들은 관절과 프레임 간의 의존성을 확립하기 위해 시공간 모델링을 사용하고, 프레임 단위 분류 감독을 위해 원-핫 인코딩과 교차 엔트로피 손실을 활용한다. 하지만 이러한 방법들은 골격 특징 내 관절과 동작 간의 고유 상관관계를 간과하여 인간 동작에 대한 이해가 제한적이다. 이를 해결하기 위해, 본 논문에서는 대규모 언어 모델(LLM)에 의해 생성된 사전 그래프를 활용하여 모델링과 감독을 모두 향상시키는 텍스트 기반 관계 그래프 향상 네트워크(TRG-Net)를 제안한다. 모델링을 위해, 동적 시공간 융합 모델링(DSFM) 방법은 채널 및 프레임 수준 동적 적응을 통해 텍스트 기반 관절 그래프(TJG)를 통합하여 공간 관계를 효과적으로 모델링하고, 시간 모델링 중 시공간 코어 특징을 통합한다. 감독을 위해, 절대-상대 클래스 간 감독(ARIS) 방법은 동작 특징과 텍스트 임베딩 간의 대조 학습을 사용하여 절대 클래스 분포를 규제하고, 텍스트 기반 동작 그래프(TAG)를 활용하여 동작 특징 간의 상대적 클래스 간 관계를 포착한다. 또한, 무작위 관절 폐색 및 축 회전을 통합하여 공간 일반화를 향상시키는 공간 인식 향상 처리(SAEP) 방법을 제안한다. 네 개의 공개 데이터 세트에 대한 성능 평가는 TRG-Net이 최첨단 결과를 달성함을 보여준다.