Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Sign Spotting Disambiguation using Large Language Models

Created by
  • Haebom

作者

JianHe Low、Ozge Mercanoglu Sincan、Richard Bowden

概要

この論文は、継続的な手話ビデオ内の個々の手話を識別し、位置を特定する手話発見作業に焦点を当てています。手話翻訳分野における深刻なデータ不足問題を解決し、データセット注釈作業の規模を拡大する上で重要な役割を果たす手話発見において、既存のアプローチの限界である語彙柔軟性不足と持続的な手話ストリームのあいまいさ問題を解決するため、大規模言語モデル(LLM)を統合した新しい訓練なしに動作するフレームワークを提示します。このフレームワークは、空間 - 時間的特徴と手の形の特徴を抽出し、動的時間歪み(DTW)とコサイン類似度を使用して大規模な水和辞書と一致します。モデルの再訓練なしで優れた語彙の柔軟性を提供し、LLMを活用してビームサーチを介してコンテキスト認識グロス不明確性を解消します。合成と実際の水和データセットの実験結果は、従来の方法よりも精度と文章の流暢性に優れていることを示しています。

Takeaways、Limitations

Takeaways:
LLMを活用して水和発見の精度と文章流暢性を向上できることを示した。
訓練を必要としないフレームワークにより、語彙の柔軟性を高め、モデルの再訓練の必要性を減らします。
大規模な手話辞書を活用し、様々な手話を効果的に処理可能。
文脈認識光の不明瞭さを解消することによる水和認識の精度改善
Limitations:
LLMのパフォーマンスに依存する可能性があります。 LLMの性能低下が水和発見性能に直接影響を及ぼす可能性がある。
大規模な水和辞書の質によっては、パフォーマンスが影響を受ける可能性があります。辞書の不完全性や誤差は精度の低下につながる可能性があります。
実際の世界のさまざまな条件(照明、背景など)の一般化性能の追加検証が必要です。
特定の言語や手話の方法に偏りがある可能性。
👍