Label Distribution Learning-Enhanced Dual-KNN for Text Classification
Created by
Haebom
Category
Empty
저자
Bo Yuan, Yulin Chen, Zhen Tan, Wang Jinyan, Huan Liu, Yin Zhang
개요
본 논문은 텍스트 분류 성능 향상을 위해 외부 정보 대신 모델 자체가 학습 중 생성하는 내부 정보(텍스트 임베딩, 예측된 레이블 확률 분포 등) 활용에 초점을 맞추고 있다. 이를 위해 두 개의 kNN 모듈을 사용하는 이중 kNN(DkN) 프레임워크를 제안한다. kNN 모듈은 노이즈가 많은 데이터셋이나 유사한 레이블을 가진 데이터셋에서 잘못된 예측을 할 수 있으므로, 레이블 유사도를 학습하고 더 나은 레이블 분포를 생성하여 모델의 과적합을 완화하고 분류 성능을 향상시키는 레이블 분포 학습 모듈을 추가적으로 제시한다. 다양한 벤치마크 데이터셋에서 실험을 통해 제안 방법의 효과를 검증한다.
시사점, 한계점
•
시사점:
◦
모델 내부 정보를 활용하여 텍스트 분류 성능 향상 가능성을 제시.
◦
이중 kNN 프레임워크와 레이블 분포 학습 모듈을 통해 노이즈 데이터에 대한 kNN의 취약점을 해결.