Large Sign Language Models: Toward 3D American Sign Language Translation
Created by
Haebom
Category
Empty
저자
Sen Zhang, Xiaoxiao He, Di Liu, Zhaoyang Xia, Mingyu Zhao, Chaowei Tan, Vivian Li, Bo Liu, Dimitris N. Metaxas, Mubbasir Kapadia
개요
본 논문은 대규모 언어 모델(LLM)을 기반으로 3D 미국 수화(ASL)를 번역하는 새로운 프레임워크인 대규모 수화 모델(LSLM)을 제시합니다. 이는 청각 장애인의 가상 의사 소통을 지원하기 위한 것으로, 2D 비디오 대신 3D 수화 데이터를 활용하여 공간적, 제스처, 깊이 정보를 포착합니다. ASL 번역 외에도 텍스트 기반 입력에서 벗어나 인간 의사 소통에 대한 이해를 넓히기 위해 복잡하고 구체화된 다중 모드 언어를 LLM의 처리 능력에 통합하는 것을 탐구합니다. 3D 제스처 특징에서 텍스트로의 직접 번역과 외부 프롬프트에 의해 번역을 조절할 수 있는 지시 기반 설정을 모두 연구합니다.
시사점, 한계점
•
3D 수화 데이터를 활용하여 보다 정확하고 견고한 번역을 제공하여 청각 장애인의 디지털 의사 소통 접근성을 향상시킴.
•
LLM의 처리 능력을 확장하여 텍스트 기반 입력 외에도 복잡하고 구체화된 다중 모드 언어를 이해하도록 함.
•
3D 제스처에서 텍스트로의 직접 번역과 지시 기반 설정을 모두 탐구하여 유연성을 제공함.
•
수화 번역 및 다중 모드 언어 이해에 대한 중요한 진전을 제시하지만, 구체적인 성능 평가 및 실제 적용 사례에 대한 정보는 부족함.