# Sign Spotting Disambiguation using Large Language Models

### 저자

JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden

### 개요

본 논문은 지속적인 수화 비디오 내에서 개별 수화를 식별하고 위치를 파악하는 수화 발견(Sign Spotting) 작업에 초점을 맞추고 있습니다.  수화 번역 분야의 심각한 데이터 부족 문제를 해결하고 데이터셋 주석 작업의 규모를 확장하는 데 중요한 역할을 하는 수화 발견에 있어, 기존의 접근 방식의 한계인 어휘 유연성 부족과 지속적인 수화 스트림의 모호성 문제를 해결하기 위해,  대규모 언어 모델(LLM)을 통합한 새로운 훈련 없이도 동작하는 프레임워크를 제시합니다.  이 프레임워크는 공간-시간적 특징과 손 모양 특징을 추출하여 동적 시간 왜곡(DTW)과 코사인 유사도를 이용하여 대규모 수화 사전과 매칭합니다.  모델 재훈련 없이 우수한 어휘 유연성을 제공하며, LLM을 활용하여 빔 서치를 통해 문맥 인식 글로스 불명확성 해소를 수행합니다.  합성 및 실제 수화 데이터셋에 대한 실험 결과, 기존 방법보다 정확도와 문장 유창성이 뛰어남을 보여줍니다.

### 시사점, 한계점

- **시사점:**

    - LLM을 활용하여 수화 발견의 정확도와 문장 유창성을 향상시킬 수 있음을 보여줌.

    - 훈련이 필요 없는 프레임워크를 통해, 어휘 유연성을 높이고 모델 재훈련의 필요성을 감소시킴.

    - 대규모 수화 사전을 활용하여 다양한 수화를 효과적으로 처리 가능.

    - 문맥 인식 글로스 불명확성 해소를 통해 수화 인식의 정확성 개선.

- **한계점:**

    - LLM의 성능에 의존적일 수 있음.  LLM의 성능 저하가 수화 발견 성능에 직접적인 영향을 미칠 가능성 존재.

    - 대규모 수화 사전의 질에 따라 성능이 영향받을 수 있음.  사전의 불완전성이나 오류는 정확도 저하로 이어질 수 있음.

    - 실제 세계의 다양한 조건(조명, 배경 등)에 대한 일반화 성능에 대한 추가적인 검증이 필요함.

    - 특정 언어 또는 수화 방식에 대한 편향이 존재할 가능성.

[PDF 보기](https://arxiv.org/pdf/2507.03703)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
