En este artículo, abordamos la práctica, pero desafiante, tarea del reconocimiento de emociones (ERC) en conversaciones y proponemos un novedoso enfoque multimodal: la red neuronal de grafos de corto alcance (LSDGNN). Basándonos en el grafo acíclico dirigido (DAG), construimos una red neuronal de grafos de largo alcance y una red neuronal de grafos de corto alcance para obtener características multimodales de enunciados distantes y adyacentes, respectivamente. Utilizamos un regularizador diferencial para que las características de largo y corto alcance sean lo más distintas posible en las expresiones, permitiendo a la vez la influencia mutua entre ambos módulos, e integramos módulos bilineales para facilitar la interacción de características. También proponemos un aprendizaje curricular mejorado (ICL) para abordar el problema del desequilibrio de datos. Diseñamos un índice de "cambio emocional ponderado" que enfatiza los cambios en emociones similares mediante el cálculo de la similitud entre diferentes emociones, y desarrollamos una medida de dificultad para facilitar un proceso de aprendizaje que aprende primero las muestras fáciles. Los resultados experimentales en los conjuntos de datos IEMOCAP y MELD muestran que el modelo propuesto supera los parámetros de referencia existentes.