Este artículo presenta un marco de modelo de lenguaje a gran escala (LLM) en línea, aumentado por búsqueda, para superar las limitaciones de los métodos existentes de generación de escenarios en pruebas basadas en simulación, lo cual es esencial para la verificación de vehículos autónomos (VA). Mediante un analizador de comportamiento basado en LLM, inferimos las intenciones más peligrosas de los vehículos en segundo plano y generamos trayectorias adversarias factibles mediante agentes LLM adicionales. A medida que se detectan nuevas intenciones, ampliamos automáticamente la biblioteca de comportamiento de pares intención-planificador mediante memoria dinámica y almacenamiento de búsqueda para mitigar el olvido y acelerar la adaptación. Los resultados de la evaluación con el conjunto de datos de movimiento abierto de Waymo demuestran que supera a los métodos existentes, reduciendo el tiempo mínimo de colisión promedio de 1,62 s a 1,08 s y la tasa de colisión en un 75 %.