Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Sign Spotting Disambiguation using Large Language Models

Created by
  • Haebom

作者

JianHe Low、Ozge Mercanoglu Sincan、Richard Bowden

概要

この論文では、スー語翻訳におけるデータ不足の問題を解決するために、大規模言語モデル(LLM)を組み込んだ新しい訓練を必要としないスー語の識別と位置決め(Sign Spotting)フレームワークを紹介します。従来のアプローチとは対照的に、本研究では、グローバル時空間および手の形の特徴を抽出し、動的時間歪みおよび余弦類似度を使用して大規模な手語辞書と比較する。 LLMは、微調整なしでビームサーチを介してコンテキスト認識語彙解析を実行し、マッチングプロセスで発生するノイズとあいまいさを軽減します。合成と実際の手術データセットを使用した実験結果は、従来の方法よりも精度と文章の流暢性が向上することを示しています。

Takeaways、Limitations

Takeaways:
LLMを活用することで、訓練なしにスー語識別の精度と文章流暢性を向上させることができます。
辞書ベースのマッチングにより語彙の柔軟性を向上
文脈認識語彙解析によるノイズと曖昧性を効果的に緩和
大規模な手語データセット注釈操作の効率化に貢献
Limitations:
LLMのパフォーマンスは辞書の品質とサイズに依存する可能性があります。
実際の修飾の複雑さ(例えば、様々な修飾スタイル、背景ノイズ)のための追加の Robustness 検証が必要です。
特定のLLMに依存している可能性があり、他のLLM適用時のパフォーマンスの変化の可能性があります。
ビームサーチを用いた語彙解析プロセスの計算コストが高くなる可能性がある。
👍