Para abordar la alucinación de modelos en sistemas de Generación Aumentada por Recuperación (RAG), proponemos la Optimización de Fidelidad Autosupervisada (SSFO). SSFO construye pares de datos de preferencia contrastando las salidas del modelo con y sin contexto, y utiliza la Optimización de Preferencia Directa (DPO) para mejorar la precisión del modelo sin costos de etiquetado ni sobrecarga de inferencia adicional. SSFO aprovecha el fenómeno de "desplazamiento de verosimilitud", que transfiere la masa de probabilidad a tokens alineados con el contexto, y propone una función de pérdida de DPO mejorada basada en este. SSFO logra un rendimiento de vanguardia en múltiples conjuntos de datos, superando los métodos existentes y preservando las capacidades de generalización y seguimiento de dirección en entornos multilingües.