Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Skeleton-based sign language recognition using a dual-stream spatio-temporal dynamic graph convolutional network

Created by
  • Haebom

作者

Liangjin Liu, Haoyang Zheng, Zhengzhong Zhu, Pei Zhou

概要

本論文は互いに形態的に類似しているが、意味的には異なる水和動作を認識するのが困難な独立した水和認識(ISLR)問題を解決するためにDual-SignLanguageNet(DSLNet)を提案する。 DSLNetは、手の形と動きの軌跡を別々の座標系でモデル化するデュアルリファレンス、デュアルストリームアーキテクチャを使用しています。手首中心座標系で形状をモデル化し、顔中心座標系でコンテキストを考慮した軌跡をモデル化し、Topology-aware graph convolutionとFinsler geometry-based encoderを介してそれぞれの特徴を抽出します。最終的には、ジオメトリ駆動型の最適なトランスポートフュージョンメカニズムを介して2つの機能を統合します。実験の結果、WLASL-100、WLASL-300、およびLSA64データセットでは、競合モデルよりも少ないパラメータで最先端のパフォーマンス(それぞれ93.70%、89.97%、99.79%)を達成しました。

Takeaways、Limitations

Takeaways:
手の形と動きの軌跡を分離してモデル化する新しいアプローチを提示することにより、ISLRのパフォーマンス向上に貢献
Topology-aware graph convolutionとFinsler geometry-based encoderを活用して既存の方法の限界を克服
Geometry-driven optimal transport fusion mechanismを通じて効果的に多様な特徴を統合。
競合モデルよりも少ないパラメータで最先端の性能を達成。
Limitations:
提案モデルの一般化性能の追加評価が必要です。
様々な照明条件や背景環境での性能評価の欠如
実際の環境での Robustness に関する追加の研究の必要性
👍