Este artículo presenta un nuevo marco para la detección de señas, que identifica y localiza señas individuales en vídeos continuos de lengua de señas para abordar la escasez de datos en la traducción de lengua de señas. Para abordar la flexibilidad léxica y la ambigüedad de los métodos existentes de detección de señas, proponemos un enfoque sin entrenamiento que integra un modelo lingüístico a gran escala (LLM). Extraemos características espaciotemporales y manuales y las comparamos con un amplio diccionario de lengua de señas mediante deformación temporal dinámica y semejanza de coseno. Posteriormente, aprovechamos el LLM para realizar una desambiguación léxica contextual mediante búsqueda de haz. Los resultados experimentales con conjuntos de datos de lengua de señas sintética y real demuestran una mayor precisión y fluidez oracional en comparación con los métodos existentes.