Sign In

Sign Language Translation using Frame and Event Stream: Benchmark Dataset and Algorithms

Created by
  • Haebom
Category
Empty

저자

Xiao Wang, Yuehang Li, Fuling Wang, Bo Jiang, Yaowei Wang, Yonghong Tian, Jin Tang, Bin Luo

개요

본 논문은 RGB 영상의 한계를 극복하기 위해 이벤트 카메라를 활용한 수어 번역 시스템을 제안한다. 기존 수어 번역 알고리즘은 RGB 프레임에 의존하여 프레임 속도, 조명 변화, 빠른 손짓으로 인한 모션 블러 등의 문제점을 가지고 있다. 이를 해결하기 위해 DVS346 카메라를 이용하여 대규모 RGB-이벤트 수어 번역 데이터셋 VECSL을 구축하였으며, 이는 15,676개의 RGB-이벤트 샘플, 15,191개의 어휘, 2,568개의 중국어 문자를 포함한다. 다양한 환경에서 촬영된 이 데이터셋을 기반으로 기존 최첨단 수어 번역 알고리즘을 재훈련 및 평가하고, 미세 수어와 거시 수어 검색을 통합한 새로운 RGB-이벤트 수어 번역 프레임워크 M$^2$-SLT를 제안하여 최첨단 성능을 달성하였다. 데이터셋과 소스 코드는 공개될 예정이다.

시사점, 한계점

시사점:
이벤트 카메라를 활용한 수어 번역 연구의 새로운 가능성 제시
대규모 RGB-이벤트 수어 번역 데이터셋 VECSL 구축 및 공개
기존 최첨단 알고리즘 성능 비교 및 새로운 프레임워크 M$^2$-SLT 제안을 통한 성능 향상
다양한 조명 및 환경 조건에서의 견고한 수어 인식 가능성
한계점:
제안된 방법의 다른 수어 언어 또는 다른 이벤트 카메라에 대한 일반화 성능 검증 필요
VECSL 데이터셋의 다양성 확장 필요 (예: 더 많은 사용자, 다양한 수어 스타일 등)
실시간 처리 성능에 대한 평가 부족
비교 대상 알고리즘이 본 연구에서 새로 제시된 과제에 특화되지 않아, 직접적인 비교의 타당성에 대한 추가적인 논의 필요.
👍