본 논문은 대규모 언어 모델(LLM)을 이용하여 자동으로 생성된 레이블 데이터셋의 신뢰성 문제를 해결하기 위한 새로운 방법인 SiDyP(Simplex Label Diffusion with Dynamic Prior)를 제안합니다. LLM을 이용한 자동 레이블 생성은 기존의 수작업 레이블링의 비용과 시간을 절감할 수 있지만, 생성된 레이블의 정확성이 낮다는 문제점이 있습니다. SiDyP는 텍스트 임베딩 공간에서 이웃 레이블 분포를 통해 잠재적인 실제 레이블 후보를 검색하고, 단순 확산 모델을 이용하여 노이즈가 있는 후보들을 반복적으로 개선함으로써 분류기의 예측을 보정합니다. 실험 결과, SiDyP는 제로샷 및 퓨샷 설정에서 모두 BERT 분류기의 성능을 평균 7.21% 및 7.30% 향상시켰음을 보여줍니다. 다양한 LLM과 NLP 작업에 대한 광범위한 벤치마킹을 통해 SiDyP의 효과를 입증하고, 코드는 Github에 공개하였습니다.