この論文は、継続的な手話ビデオ内の個々の手話を識別し、位置を特定する手話発見作業に焦点を当てています。手話翻訳分野における深刻なデータ不足問題を解決し、データセット注釈作業の規模を拡大する上で重要な役割を果たす手話発見において、既存のアプローチの限界である語彙柔軟性不足と持続的な手話ストリームのあいまいさ問題を解決するため、大規模言語モデル(LLM)を統合した新しい訓練なしに動作するフレームワークを提示します。このフレームワークは、空間 - 時間的特徴と手の形の特徴を抽出し、動的時間歪み(DTW)とコサイン類似度を使用して大規模な水和辞書と一致します。モデルの再訓練なしで優れた語彙の柔軟性を提供し、LLMを活用してビームサーチを介してコンテキスト認識グロス不明確性を解消します。合成と実際の水和データセットの実験結果は、従来の方法よりも精度と文章の流暢性に優れていることを示しています。