Highly Imbalanced Regression with Tabular Data in SEP and Other Applications
Created by
Haebom
저자
Josias K. Moukpe, Philip K. Chan, Ming Zhang
개요
본 논문은 1,000을 초과하는 불균형 비율을 갖는 표 형식 데이터에서의 고도로 불균형적인 회귀 문제를 다룹니다. 희귀한 사례의 목표값을 정확하게 추정하는 것은 희귀하고 유해한 태양 에너지 입자(SEP) 사건의 강도 예측과 같은 응용 분야에서 중요합니다. 기존의 MSE 손실 함수는 예측값과 실제값 사이의 상관관계를 고려하지 않고, 일반적인 역 중요도 함수는 오직 볼록 함수만 허용하며, 균일 샘플링은 희귀한 사례가 없는 미니 배치를 생성할 수 있습니다. 따라서 본 논문에서는 상관관계, 단조 감소적 involution(MDI) 중요도 및 계층적 샘플링을 통합한 CISIR을 제안합니다. 다섯 개의 데이터셋을 기반으로 한 실험 결과에 따르면 CISIR은 최근의 다른 방법들보다 더 낮은 오류율과 더 높은 상관관계를 달성할 수 있으며, 다른 최신 방법에 상관관계 구성 요소를 추가하면 성능을 향상시킬 수 있음을 보여줍니다. 마지막으로 MDI 중요도는 다른 중요도 함수보다 더 나은 성능을 보입니다. 소스 코드는 https://github.com/Machine-Earning/CISIR 에서 확인할 수 있습니다.