Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Text-Derived Relational Graph-Enhanced Network for Skeleton-Based Action Segmentation

Created by
  • Haebom
Category
Empty

저자

Haoyu Ji, Bowen Chen, Weihong Ren, Wenze Huang, Zhihao Yang, Zhiyong Wang, Honghai Liu

개요

본 논문은 긴, 다듬어지지 않은 인체 골격 동작 시퀀스로부터 다양한 동작을 분할하고 인식하는 골격 기반 시간적 동작 분할(STAS) 문제를 다룬다. 기존 STAS 방법들은 관절과 프레임 간의 의존성을 확립하기 위해 시공간 모델링을 사용하고, 프레임 단위 분류 감독을 위해 원-핫 인코딩과 교차 엔트로피 손실을 활용한다. 하지만 이러한 방법들은 골격 특징 내 관절과 동작 간의 고유 상관관계를 간과하여 인간 동작에 대한 이해가 제한적이다. 이를 해결하기 위해, 본 논문에서는 대규모 언어 모델(LLM)에 의해 생성된 사전 그래프를 활용하여 모델링과 감독을 모두 향상시키는 텍스트 기반 관계 그래프 향상 네트워크(TRG-Net)를 제안한다. 모델링을 위해, 동적 시공간 융합 모델링(DSFM) 방법은 채널 및 프레임 수준 동적 적응을 통해 텍스트 기반 관절 그래프(TJG)를 통합하여 공간 관계를 효과적으로 모델링하고, 시간 모델링 중 시공간 코어 특징을 통합한다. 감독을 위해, 절대-상대 클래스 간 감독(ARIS) 방법은 동작 특징과 텍스트 임베딩 간의 대조 학습을 사용하여 절대 클래스 분포를 규제하고, 텍스트 기반 동작 그래프(TAG)를 활용하여 동작 특징 간의 상대적 클래스 간 관계를 포착한다. 또한, 무작위 관절 폐색 및 축 회전을 통합하여 공간 일반화를 향상시키는 공간 인식 향상 처리(SAEP) 방법을 제안한다. 네 개의 공개 데이터 세트에 대한 성능 평가는 TRG-Net이 최첨단 결과를 달성함을 보여준다.

시사점, 한계점

시사점:
LLM 기반 사전 지식을 활용하여 STAS 성능을 향상시키는 새로운 방법 제시.
DSFM, ARIS, SAEP 등의 새로운 모듈을 통해 시공간 모델링, 감독 방식, 공간 일반화 능력 향상.
네 개의 공개 데이터셋에서 SOTA 성능 달성.
한계점:
LLM에 대한 의존도가 높아 LLM의 성능에 따라 TRG-Net의 성능이 영향을 받을 수 있음.
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요함.
특정 유형의 동작에 대해서는 성능 저하가 발생할 가능성 존재.
계산 비용이 높을 수 있음.
👍