Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Sign Spotting Disambiguation using Large Language Models

Created by
  • Haebom

저자

JianHe Low, Ozge Mercanoglu Sincan, Richard Bowden

개요

본 논문은 수어 번역에서 데이터 부족 문제를 해결하기 위해 대규모 언어 모델(LLM)을 통합한 새로운 훈련이 필요 없는 수어 식별 및 위치 확인(Sign Spotting) 프레임워크를 제시합니다. 기존의 접근 방식과 달리, 본 연구는 전역 시공간 및 손 모양 특징을 추출하여 동적 시간 왜곡 및 코사인 유사도를 사용하여 대규모 수어 사전과 비교합니다. LLM은 미세 조정 없이 빔 서치를 통해 문맥 인식 어휘 해석을 수행하여 매칭 과정에서 발생하는 노이즈와 모호성을 완화합니다. 합성 및 실제 수어 데이터셋을 사용한 실험 결과, 기존 방식보다 정확도와 문장 유창성이 향상됨을 보여줍니다.

시사점, 한계점

시사점:
LLM을 활용하여 훈련 없이도 수어 식별 정확도와 문장 유창성을 향상시킬 수 있음을 보여줌.
사전 기반 매칭을 통해 어휘 유연성을 높임.
문맥 인식 어휘 해석을 통해 노이즈와 모호성을 효과적으로 완화.
대규모 수어 데이터셋 주석 작업을 효율화하는 데 기여.
한계점:
LLM의 성능이 사전의 질과 크기에 의존적일 수 있음.
실제 수어의 복잡성(예: 다양한 수어 스타일, 배경 노이즈)에 대한 추가적인 robustness 검증 필요.
특정 LLM에 의존적일 수 있으며, 다른 LLM 적용 시 성능 변화 가능성 존재.
빔 서치를 사용하는 어휘 해석 과정의 계산 비용이 높을 수 있음.
👍