Este artículo se centra en el aprendizaje de los costes de acción, en lugar de en el aprendizaje de la dinámica de acción, en el aprendizaje de modelos de comportamiento. A diferencia de estudios previos que se centraban en especificar planes válidos para tareas de planificación, este artículo presenta un problema novedoso: el aprendizaje de un conjunto de costes de acción que garantiza que un conjunto de planes de entrada sea óptimo según el modelo de planificación resultante. Para abordar este problema, proponemos $LACFIP^k$, un algoritmo que aprende los costes de acción a partir de planes de entrada sin etiquetar. Demostramos el buen rendimiento de $LACFIP^k$ mediante resultados teóricos y experimentales.