Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Highly Imbalanced Regression with Tabular Data in SEP and Other Applications

Created by
  • Haebom

저자

Josias K. Moukpe, Philip K. Chan, Ming Zhang

개요

본 논문은 1,000을 초과하는 불균형 비율을 갖는 표 형식 데이터에서의 고도로 불균형적인 회귀 문제를 다룹니다. 희귀한 사례의 목표값을 정확하게 추정하는 것은 희귀하고 유해한 태양 에너지 입자(SEP) 사건의 강도 예측과 같은 응용 분야에서 중요합니다. 기존의 MSE 손실 함수는 예측값과 실제값 사이의 상관관계를 고려하지 않고, 일반적인 역 중요도 함수는 오직 볼록 함수만 허용하며, 균일 샘플링은 희귀한 사례가 없는 미니 배치를 생성할 수 있습니다. 따라서 본 논문에서는 상관관계, 단조 감소적 involution(MDI) 중요도 및 계층적 샘플링을 통합한 CISIR을 제안합니다. 다섯 개의 데이터셋을 기반으로 한 실험 결과에 따르면 CISIR은 최근의 다른 방법들보다 더 낮은 오류율과 더 높은 상관관계를 달성할 수 있으며, 다른 최신 방법에 상관관계 구성 요소를 추가하면 성능을 향상시킬 수 있음을 보여줍니다. 마지막으로 MDI 중요도는 다른 중요도 함수보다 더 나은 성능을 보입니다. 소스 코드는 https://github.com/Machine-Earning/CISIR 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
고도로 불균형적인 회귀 문제에 효과적인 CISIR 알고리즘 제안
MSE 손실 함수의 한계점을 보완하고 상관관계를 고려하여 정확도 향상
MDI 중요도 함수의 우수성 확인 및 다른 방법들에 대한 성능 향상 가능성 제시
공개된 소스 코드를 통해 재현성 및 활용성 증대
한계점:
제한된 수의 데이터셋(5개)을 사용한 실험 결과
다양한 불균형 비율 및 데이터 특성에 대한 일반화 가능성 검증 필요
다른 고급 회귀 기법과의 비교 분석 추가 필요
👍