Takeaways: Identificamos la "brecha de Murphy", una limitación estructural de la RLHF, y sugerimos la importancia de un oráculo de corrección para abordarla. Proporcionamos evidencia teórica de las limitaciones de rendimiento de la RLHF en entornos con especificaciones deficientes, lo que sugiere futuras líneas de investigación en RLHF. También proporcionamos una nueva explicación para los fallos de alineación observados.