Este artículo señala las limitaciones de la investigación existente en neurociencia sobre toma de decisiones, la cual se centra en tareas conductuales simplificadas y recompensas explícitas, y aborda únicamente comportamientos repetitivos y fijos de animales. En entornos naturales, los animales a menudo exhiben comportamientos complejos durante largos períodos de tiempo debido a motivaciones internas no observables. El aprendizaje por refuerzo inverso (IRL) variable en el tiempo se ha utilizado para capturar esto, pero no considera que las decisiones de los animales se basan no solo en el estado actual sino también en la historia pasada. En este artículo, presentamos SWIRL (SWitching IRL), un nuevo marco que integra funciones de recompensa variables en el tiempo y dependientes del pasado. SWIRL modela secuencias de acción a largo plazo como transiciones entre procesos de decisión a corto plazo, cada uno gobernado por una función de recompensa única, capturando así cómo las decisiones pasadas y el contexto ambiental moldean el comportamiento. Aplicamos SWIRL a conjuntos de datos de comportamiento animal simulados y reales y demostramos que supera cuantitativa y cualitativamente a los modelos sin dependencia del pasado. Este es el primer modelo IRL que integra políticas y recompensas dependientes del pasado, lo que mejora nuestra comprensión de la toma de decisiones compleja y natural de los animales.