Sign In

BdSLW401: Transformer-Based Word-Level Bangla Sign Language Recognition Using Relative Quantization Encoding (RQE)

Created by
  • Haebom
Category
Empty

저자

Husne Ara Rubaiyeat, Njayou Youssouf, Md Kamrul Hasan, Hasan Mahmud

개요

본 논문은 저자원 언어인 방글라데시 수화(BdSL)에 대한 수화 인식(SLR)의 어려움(서명자 변화, 시점 변화, 제한된 주석 데이터셋)을 해결하기 위해, 401개의 수화 단어와 18명의 서명자로부터 촬영된 정면 및 측면 뷰의 102,176개 비디오 샘플을 포함하는 대규모 다중 뷰 단어 수준 BdSL 데이터셋인 BdSLW401을 제시한다. 변환기 기반 SLR을 개선하기 위해, 랜드마크를 생리학적 기준점에 고정하고 동작 궤적을 양자화하는 구조화된 임베딩 기법인 상대 양자화 인코딩(RQE)을 도입한다. RQE는 공간적 변동성을 감소시켜 어텐션 할당을 개선하며, WLASL100에서 44.3%, SignBD-200에서 21.0%의 WER 감소 및 BdSLW60과 SignBD-90에서 상당한 성능 향상을 가져온다. 하지만, 고정된 양자화는 WLASL2000과 같은 대규모 데이터셋에서는 부족하며, 적응형 인코딩 전략의 필요성을 보여준다. 더 나아가, 어깨 랜드마크를 안정화하는 확장된 변형인 RQE-SF는 자세 일관성을 향상시키지만, 측면 뷰 인식에서 약간의 성능 저하를 초래한다. 어텐션 그래프는 RQE가 전반적인 자세 변화 대신 주요 발화 특징(손가락, 손목)과 더욱 구별되는 프레임에 집중함으로써 모델의 해석성을 향상시킨다는 것을 보여준다. BdSLW401을 소개하고 RQE 향상 구조화된 임베딩의 효과를 입증함으로써, 본 연구는 저자원 언어에 대한 변환기 기반 SLR을 발전시키고 이 분야의 미래 연구를 위한 기준을 설정한다.

시사점, 한계점

시사점:
저자원 언어인 방글라데시 수화를 위한 대규모 다중 뷰 데이터셋 BdSLW401을 제공.
변환기 기반 수화 인식 성능을 향상시키는 새로운 구조화된 임베딩 기법 RQE 제안.
RQE가 다양한 데이터셋에서 WER 감소 및 성능 향상을 가져옴을 실험적으로 증명.
RQE를 통해 모델의 해석성 향상.
저자원 언어 수화 인식 연구에 새로운 기준 제시.
한계점:
RQE의 고정된 양자화는 대규모 데이터셋에서는 효과적이지 않음. 적응형 인코딩 전략 필요.
RQE-SF는 자세 일관성 향상에 기여하지만, 측면 뷰 인식 성능에서 약간의 저하 발생.
👍