每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

基于骨架的双流时空动态图卷积网络手语识别

Created by
  • Haebom

作者

刘良金、郑浩阳、朱正中、周培

大纲

本文提出了双手语网络 (DSLNet) 来应对独立手语识别 (ISLR) 的挑战,该挑战在于识别形态相似但语义不同的手语手势。DSLNet 采用双参考、双流架构,在不同的坐标系中建模手势形状和运动轨迹。它以手腕为中心的坐标系建模手势形状,以面部为中心的坐标系建模上下文敏感的轨迹,并使用拓扑感知图卷积和基于芬斯勒几何的编码器提取各自的特征。最后,使用几何驱动的最优传输融合机制将这两个特征整合在一起。实验结果表明,DSLNet 在 WLASL-100、WLASL-300 和 LSA64 数据集上实现了最佳性能(分别为 93.70%、89.97% 和 99.79%),并且参数量少于竞争模型。

Takeaways,Limitations

Takeaways:
通过提出一种分别模拟手形和运动轨迹的新方法,有助于提高 ISLR 性能。
利用拓扑感知图卷积和基于 Finsler 几何的编码器克服现有方法的局限性。
通过几何驱动的最佳传输融合机制有效地整合各种特征。
以比竞争模型更少的参数实现尖端性能。
Limitations:
需要进一步评估所提出模型的泛化性能。
缺乏各种光照条件或背景环境下的性能评估。
需要进一步研究现实环境中的稳健性。
👍