本文提出了双手语网络 (DSLNet) 来应对独立手语识别 (ISLR) 的挑战,该挑战在于识别形态相似但语义不同的手语手势。DSLNet 采用双参考、双流架构,在不同的坐标系中建模手势形状和运动轨迹。它以手腕为中心的坐标系建模手势形状,以面部为中心的坐标系建模上下文敏感的轨迹,并使用拓扑感知图卷积和基于芬斯勒几何的编码器提取各自的特征。最后,使用几何驱动的最优传输融合机制将这两个特征整合在一起。实验结果表明,DSLNet 在 WLASL-100、WLASL-300 和 LSA64 数据集上实现了最佳性能(分别为 93.70%、89.97% 和 99.79%),并且参数量少于竞争模型。