항목 | KBO 기준 | 피타고라스 기준 |
기준 | 실제 경기 결과 | 득점/실점 |
운 영향 | 큼 | 적음 |
예측 정확성 | 제한적 | 통계적으로 신뢰 가능 |
'bat_OPS', 'bat_WPA', 'bat_R', 'bat_RE24', 'bat_HR','bat_BB',
'bat_SO', 'bat_HBP', 'bat_LOB', 'bat_GDP', 'bat_GO', 'bat_FO''pit_K', 'pit_BB', 'pit_HR', 'pit_ERA', 'pit_WHIP', 'pit_RE24'지표 | 설명 |
bat_PA, bat_AB, bat_H, bat_R, bat_HR, bat_RBI, bat_BB, bat_HBP, bat_SO, bat_GO, bat_FO, bat_NP, bat_GDP, bat_LOB | 타자의 타석 수 및 결과 지표 (경기 이닝 수에 따라 변동 큼) |
pit_TBF, pit_H, pit_R, pit_ER, pit_BB, pit_HBP, pit_K, pit_HR, pit_NP, pit_GO, pit_FO | 투수의 상대 타자 수, 피칭 결과 지표 (이닝 수에 따라 민감) |
field_PO, field_Ass, field_E, field_cE, field_tE, field_gPO, field_aPO | 수비 기회에 따라 누적되는 지표들 |
pit_GSC, pit_IP | 선발 투수의 이닝 소화 및 퍼포먼스 관련 지표 (우천 중단 시 낮아짐, 연장전 시 늘어남) |
지표 | 설명 |
bat_BB_K, bat_BB_PA, bat_LOB_rate | 타석 수가 적으면 극단적인 비율이 나올 수 있음 |
pit_BB_K, pit_IS_IR_rate | 투구 수나 주자 상황이 적으면 신뢰도 낮아짐 |
field_error_rate | 실책 1개의 영향이 커짐 |
pit_ERA, pit_WHIP, bat_AVG, bat_OPS, pit_WPA, pit_RE24, bat_WPA, bat_RE24 | 비율형이지만 경기량 부족 시 왜곡 가능 |
지표 | 설명 |
pit_GSC_50 | GSC를 50으로 나눈 지표로, 정규화돼 있으나 이닝 수에 간접 영향 |
bat_RBI_R_per_PA, bat_RC, pit_LOB% | 비율 기반으로 비교적 안정적이나 표본 작으면 주의 |
pit_LI, bat_LI | 상황 중요도 기반 지표 (경기 길이보다 맥락 영향이 큼) |
모델 | Accuracy | ROC-AUC | 비고 |
Logistic Regression | 0.959 | 0.96↑ | 기본 해석력 우수 |
Random Forest | 0.946 | 0.94↑ | 특성 중요도 분석 |
XGBoost | 0.924 | 0.92↑ | 학습 속도·성능 균형 |
Stacking Ensemble | 0.943 | 0.93↑ | 과적합 방지, 안정적 성능 |