본 논문은 데이터베이스 내 다양한 데이터 관리 작업의 기초가 되는 다중 집합 또는 열의 고유값 개수(NDV) 추정에 대한 연구입니다. 기존 방법들은 대부분 균일한 랜덤 샘플링을 통한 상당한 양의 샘플 또는 전체 열에 대한 접근을 필요로 하여 데이터 접근 비용이 많이 들고 데이터 접근이 제한적인 경우 추정이 비효율적일 수 있습니다. 이 논문에서는 이러한 문제를 해결하기 위해 스키마와 같은 의미 정보를 활용하는 방법인 PLM4NDV를 제안합니다. PLM4NDV는 사전 훈련된 언어 모델(PLM)을 통합하여 NDV 추정을 위한 의미 스키마 정보를 추출합니다. 대규모 실제 데이터셋에 대한 광범위한 실험을 통해 PLM4NDV가 기존 방법보다 우수함을 보여줍니다. 소스 코드는 https://github.com/bytedance/plm4ndv 에서 확인할 수 있습니다.