Sign In

Label Distribution Learning-Enhanced Dual-KNN for Text Classification

Created by
  • Haebom
Category
Empty

저자

Bo Yuan, Yulin Chen, Zhen Tan, Wang Jinyan, Huan Liu, Yin Zhang

개요

본 논문은 텍스트 분류 성능 향상을 위해 외부 정보 대신 모델 자체가 학습 중 생성하는 내부 정보(텍스트 임베딩, 예측된 레이블 확률 분포 등) 활용에 초점을 맞추고 있다. 이를 위해 두 개의 kNN 모듈을 사용하는 이중 kNN(DkN) 프레임워크를 제안한다. kNN 모듈은 노이즈가 많은 데이터셋이나 유사한 레이블을 가진 데이터셋에서 잘못된 예측을 할 수 있으므로, 레이블 유사도를 학습하고 더 나은 레이블 분포를 생성하여 모델의 과적합을 완화하고 분류 성능을 향상시키는 레이블 분포 학습 모듈을 추가적으로 제시한다. 다양한 벤치마크 데이터셋에서 실험을 통해 제안 방법의 효과를 검증한다.

시사점, 한계점

시사점:
모델 내부 정보를 활용하여 텍스트 분류 성능 향상 가능성을 제시.
이중 kNN 프레임워크와 레이블 분포 학습 모듈을 통해 노이즈 데이터에 대한 kNN의 취약점을 해결.
과적합 문제 완화 및 분류 성능 향상 효과 검증.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 검증 필요.
다양한 유형의 노이즈 데이터에 대한 robustness 분석 필요.
레이블 분포 학습 모듈의 매개변수 최적화에 대한 추가 연구 필요.
👍