본 논문은 특정 도메인 작업에 대한 미세 조정을 위해 많은 오픈소스 대규모 언어 모델(LLM) 중 최적의 모델을 신속하게 선택하는 문제를 해결하는 데이터 및 모델 압축 프레임워크(DaMoC)를 제안합니다. DaMoC는 데이터 레벨과 모델 레벨의 두 가지 측면으로 구성됩니다. 데이터 레벨에서는 데이터 필터링 방법론을 분포 인식, 품질 인식, 하이브리드 접근 방식의 세 가지 패러다임으로 분류하고, 주요 토큰의 밀도를 높여 토큰 압축을 달성하며, LLM을 사용하여 텍스트를 반복적으로 다시 작성하여 표현을 최적화합니다. 모델 레벨에서는 계층 유사성 점수를 사용하여 각 계층의 중요도를 평가하고 중요도가 낮은 계층을 제거하며, 원래 모델의 기능을 최대한 보존하기 위해 스파스 병합 패러다임을 도입합니다. 의료 Q&A, 금융 Q&A, 일반 Q&A, 독해 이해 등 네 가지 데이터셋에 대한 광범위한 실험을 통해 최적의 LLM을 선택하면서 훈련 시간을 약 20배 절약할 수 있음을 보여줍니다.