En este artículo, presentamos un enfoque novedoso para mejorar el rendimiento y garantizar la portabilidad de la inferencia de modelos de lenguaje a gran escala (LLM). Para abordar los problemas de portabilidad deficiente debidos a la dependencia tradicional de una sola plataforma, la dependencia de proveedores y las nuevas barreras de entrada de hardware de IA, proponemos un método que combina la compilación justo a tiempo (JIT) con un autoajuste integral de los parámetros del kernel. Centrándonos en kernels LLM críticos para el rendimiento, demostramos que nuestro método explora hasta 15 veces más configuraciones de parámetros del kernel, genera código significativamente más diverso en múltiples dimensiones y mejora el rendimiento hasta en un 230 % en comparación con las implementaciones optimizadas por proveedores, a la vez que reduce el tamaño del código del kernel 70 veces y elimina la optimización manual del código. Nuestros resultados destacan que el autoajuste es un enfoque prometedor para mejorar la portabilidad de modelos entre proveedores de GPU.