En el aprendizaje por refuerzo, especificar una función de recompensa que capture la acción prevista puede ser muy difícil. El aprendizaje por refuerzo intenta resolver este problema mediante el aprendizaje de una función de recompensa. Sin embargo, el modelo de recompensa aprendido puede producir políticas con pocos errores en la distribución de datos, pero que luego presenten grandes arrepentimientos. Decimos que estos modelos de recompensa presentan inconsistencia entre errores y arrepentimientos. La principal causa de esta inconsistencia es el cambio de distribución que suele producirse durante la optimización de políticas. En este artículo, demostramos matemáticamente que, si bien el modelo de recompensa garantiza un error de prueba esperado suficientemente bajo como para tener un arrepentimiento bajo en el peor de los casos, existen distribuciones de datos realistas donde la inconsistencia entre errores y arrepentimientos puede ocurrir para cualquier error de prueba esperado fijo. Posteriormente, demostramos que problemas similares persisten incluso al utilizar técnicas de regularización de políticas comúnmente utilizadas en métodos como RLHF. Esperamos que nuestros resultados estimulen la investigación teórica y empírica sobre mejores maneras de aprender modelos de recompensa y mejores maneras de medir su calidad de forma fiable.