Este artículo propone ProactiveEval, un marco unificado para evaluar la capacidad conversacional léxica de los modelos lingüísticos a gran escala (LLM). Para abordar las limitaciones de estudios previos, que se han centrado en dominios específicos o escenarios orientados a tareas y, por lo tanto, han limitado la exploración exhaustiva de la capacidad conversacional léxica de los modelos, descomponemos la conversación léxica en dos aspectos: planificación de objetivos y guía de conversación. Establecemos métricas de evaluación en múltiples dominios. Además, diseñamos este marco para generar automáticamente datos de evaluación diversos y complejos. Desarrollamos 328 entornos de evaluación en seis dominios diferentes y experimentamos con 22 LLM, demostrando que DeepSeek-R1 y Claude-3.7-Sonnet tienen un buen rendimiento en las tareas de planificación de objetivos y guía de conversación, respectivamente. Finalmente, investigamos el impacto de la capacidad de razonamiento en el comportamiento léxico y analizamos sus implicaciones para el desarrollo futuro de modelos.