Este documento destaca los desafíos de la previsión de series temporales financieras y las limitaciones de los enfoques existentes (pérdida de información debido a la estandarización de datos, número fijo de variables y longitud histórica de las series temporales, interpretabilidad e incertidumbre de la previsión). Para abordar estos desafíos, construimos un conjunto de datos financieros de imagen y texto (FVLDB) diverso y desarrollamos un método de optimización de políticas relativas a grupos ajustado a la incertidumbre (UARPO) capaz de pronosticar y analizar la incertidumbre. Proponemos FinZero, un modelo multimodal preentrenado y ajustado con UARPO, para realizar inferencia, previsión y comprensión analítica de las series temporales financieras FVLDB. Los resultados experimentales demuestran una gran adaptabilidad y escalabilidad, y en particular, FinZero mejora la precisión de la predicción en aproximadamente un 13,48 % en el grupo de alta confianza en comparación con GPT-4o, lo que demuestra la eficacia del ajuste fino del aprendizaje de refuerzo en modelos multimodales a gran escala.