실제 텍스트 분류 작업에서 부정적인 텍스트는 부정적 내용의 비율이 매우 낮은 경우가 많으며, 이는 텍스트 품질 관리, 법적 위험 선별 및 민감한 정보 차단과 같은 분야에서 특히 문제가 됩니다. 이러한 문제는 거시적 수준(과립화된 긍정 및 부정 샘플 간의 높은 유사성으로 인해 부정적 텍스트를 구별하기 어려움)과 미시적 수준(극심한 클래스 불균형 및 세분화된 레이블 부족) 두 가지 수준에서 나타납니다. 이러한 문제를 해결하기 위해 본 논문에서는 이론적 분석을 바탕으로 과립화된 긍정-부정(PN) 분류 작업을 불균형 세분화된 긍정-레이블 없음(PU) 분류 문제로 변환하는 방법을 제안합니다. 본 논문은 미시적 수준에서 심각한 불균형 속에서 거시적 수준의 성능을 최적화하는 고유한 PU 학습 손실 함수를 특징으로 하는 새로운 프레임워크인 균형 잡힌 세분화된 긍정-레이블 없음(BFGPU) 학습을 제시합니다. 이 프레임워크의 성능은 재균형된 의사 레이블링 및 임계값 조정을 통해 더욱 향상됩니다. 공개 데이터셋과 실제 데이터셋에 대한 광범위한 실험은 거시적 및 미시적 수준 모두에서 매우 불균형적인 극단적인 시나리오에서도 다른 방법보다 BFGPU의 효과를 입증합니다.
시사점, 한계점
•
시사점:
◦
과립화된 긍정-부정 분류 문제를 불균형 세분화된 긍정-레이블 없음 문제로 변환하는 새로운 접근 방식을 제시하여 부정적 텍스트 분류의 어려움을 해결합니다.
◦
BFGPU 프레임워크는 거시적 및 미시적 수준의 불균형 문제를 동시에 해결하여 기존 방법보다 우수한 성능을 보입니다.
◦
재균형된 의사 레이블링 및 임계값 조정 기법을 통해 성능을 더욱 향상시킬 수 있음을 보여줍니다.
◦
실제 데이터셋을 활용한 실험 결과를 통해 제안된 방법의 실용성을 검증합니다.
•
한계점:
◦
제안된 방법의 효과는 특정 유형의 데이터셋에 국한될 수 있습니다. 다양한 데이터셋에 대한 추가적인 실험이 필요합니다.
◦
BFGPU 프레임워크의 매개변수 조정에 대한 자세한 지침이 부족할 수 있습니다. 최적의 매개변수 설정에 대한 추가적인 연구가 필요합니다.
◦
이론적 분석의 깊이가 부족할 수 있습니다. 더욱 엄밀한 이론적 분석이 필요할 수 있습니다.