본 논문은 대규모 언어 모델(LLM)을 이용해 생성된 합성 데이터셋의 다양성을 측정하는 새로운 방법인 DCScore를 제안합니다. 기존 합성 데이터셋 다양성 측정의 어려움을 해결하기 위해, DCScore는 다양성 평가를 샘플 분류 작업으로 공식화하여 샘플 간의 상호 관계를 활용합니다. 이론적 검증을 통해 DCScore가 다양성 관련 공리를 만족함을 보이고, 합성 데이터셋에 대한 실험 결과를 통해 기존 방법보다 다양한 다양성 의사 진실과의 상관관계가 더 높고, 계산 비용이 훨씬 적음을 보여줍니다. 코드는 깃허브에서 공개됩니다.
시사점, 한계점
•
시사점:
◦
LLM 기반 합성 데이터셋의 다양성을 효과적이고 효율적으로 측정하는 새로운 방법(DCScore) 제시.