Estudios previos de detección multimodal de noticias falsas se centraron principalmente en la alineación e integración de características intermodales y la aplicación de la consistencia texto-imagen. Sin embargo, pasaron por alto el efecto de mejora semántica de los modelos multimodales a gran escala y prestaron poca atención a las características emocionales de las noticias. Inspirados por el hecho de que las noticias falsas tienen mayor probabilidad de contener sentimientos negativos que las noticias genuinas, en este artículo, proponemos una novedosa red de mejora semántica e inferencia de sentimientos (SEER) para la detección multimodal de noticias falsas. Esta red genera subtítulos resumidos para la comprensión semántica de las imágenes y mejora el significado utilizando los resultados de modelos multimodales a gran escala. Centrándonos en la relación entre la autenticidad de las noticias y las tendencias emocionales, proponemos un módulo experto de inferencia de sentimientos que optimiza las características emocionales e infiere la autenticidad de las noticias mediante la simulación de escenarios del mundo real. A través de extensos experimentos en dos conjuntos de datos del mundo real, demostramos que SEER supera a los modelos de referencia de vanguardia.