Este artículo propone un marco de compresión de datos y modelos (DaMoC) que aborda el problema de seleccionar rápidamente el modelo óptimo entre numerosos modelos de lenguaje a gran escala (LLM) de código abierto para el ajuste fino de tareas de dominio específicas. DaMoC consta de dos aspectos: los niveles de datos y de modelo. A nivel de datos, categorizamos los métodos de filtrado de datos en tres paradigmas: enfoques con conocimiento de la distribución, con conocimiento de la calidad e híbridos. Logramos la compresión de tokens aumentando la densidad de tokens clave y optimizamos la representación reescribiendo texto iterativamente utilizando LLM. A nivel de modelo, utilizamos puntuaciones de similitud jerárquica para evaluar la importancia de cada capa, podando capas con baja importancia e introduciendo un paradigma de fusión dispersa para maximizar la preservación de las características del modelo original. A través de experimentos extensos en cuatro conjuntos de datos (preguntas y respuestas médicas, preguntas y respuestas financieras, preguntas y respuestas generales y comprensión lectora), demostramos que seleccionar el LLM óptimo reduce el tiempo de entrenamiento aproximadamente 20 veces.