Cet article se concentre sur l'apprentissage des coûts d'action, plutôt que sur l'apprentissage de la dynamique d'action, dans l'apprentissage de modèles comportementaux. Contrairement aux études précédentes qui se concentraient sur la spécification de plans valides pour les tâches de planification, cet article présente un nouveau problème : l'apprentissage d'un ensemble de coûts d'action garantissant qu'un ensemble de plans d'entrée est optimal dans le modèle de planification résultant. Pour résoudre ce problème, nous proposons $LACFIP^k$, un algorithme qui apprend les coûts d'action à partir de plans d'entrée non étiquetés. Nous démontrons la performance de $LACFIP^k$ par des résultats théoriques et expérimentaux.