4-3. 표준화(Standardization)

•

Source: 이기복(2025), "진짜 업무에 쓴느 챗GPT 노코드 데이터 분석", 디지털북스

개요

•

데이터 전처리의 주요 단계 중 하나임.

•

서로 다른 측정 단위나 스케일(Scale)을 가진 데이터들을 비교하기 위해 사용함.

목적 및 특징

•

데이터의 평균을 0, 표준편차를 1로 변환하는 과정임.

•

변환된 값(Z-score)은 각 데이터가 평균으로부터 얼마나 떨어져 있는지를 상대적 위치로 나타냄.

•

단위와 관계없이 데이터의 분포를 동일한 기준으로 비교할 수 있게 함.

표준화 수식 (Z-score)

•

Z = (X - μ) / σ

◦

X: 원본 데이터 값

◦

μ: 데이터 집단의 평균

◦

σ: 데이터 집단의 표준편차

적용 예시 1 : 수학 점수와 달리기 기록 비교

•

상황: 단위와 범위가 전혀 다른 학생들의 '수학 점수'(0~100점)와 '100m 달리기 기록'(10~20초)을 비교하고자 함.

•

문제점: '수학 80점'과 '달리기 13초' 중 어느 것이 상대적으로 더 우수한 성적인지 직접적인 비교가 어려움.

•

해결: 각 데이터를 표준화하여 Z-score로 변환.

•

결과: '영어 점수는 평균보다 0.7 표준편차 높음', '달리기 기록은 평균보다 0.8 표준편차 우수'와 같이 변환되어, 동일 선상에서 객관적인 비교가 가능해짐.

적용 예시 2 : RFM 분석에서의 데이터 표준화

RFM 분석 개요

•

목적: 고객 가치를 평가하여 우수 고객(VIP) 그룹을 식별하기 위함.

•

핵심 지표:

◦

Recency (최근성): 얼마나 최근에 구매했는가?

▪

Frequency (빈도): 얼마나 자주 구매했는가?

▪

Monetary (구매액): 얼마나 많이 구매했는가?

표준화 이전의 문제점

•

데이터 스케일(Scale)의 극심한 차이:

◦

총 구매 금액 (Monetary): 1만 원 ~ 1,000만 원

▪

최근 방문일 (Recency): 1일 ~ 365일

▪

총 구매 횟수 (Frequency): 1회 ~ 50회

•

분석 왜곡 발생:

◦

값의 범위가 압도적으로 큰 총 구매 금액 변수가 분석 결과에 과도한 영향을 미침.

▪

거리 기반 클러스터링(Clustering) 모델 사용 시, 구매액 중심으로만 고객이 분류됨.

▪

결과: 최근성과 빈도가 높은 잠재 우수 고객의 중요성이 무시되는 문제 발생.

표준화 적용 및 기대 효과

•

적용: Z-score 표준화를 통해 모든 변수의 평균을 0, 표준편차를 1로 변환.

•

기대 효과:

◦

공정한 변수 영향력: 값의 범위와 무관하게 모든 변수(R, F, M)가 동등한 조건에서 고객 특성을 설명하게 됨.

◦

정교한 고객 분류: 구매액, 방문 주기, 빈도를 종합적으로 고려하여 의미 있는 고객 세그먼트 도출 가능.

▪

(예: '최근 자주 방문하는 잠재 VIP', '과거의 우수 이탈 고객' 등)

◦

모델 성능 향상: 데이터 왜곡을 제거하여 머신러닝 모델의 정확성과 신뢰도를 높임.

기대 효과

•

단위나 스케일 차이로 인해 발생할 수 있는 분석 왜곡을 방지함.

•

데이터의 상대적 중요성을 공정하게 평가하여 머신러닝 모델의 예측 성능을 향상시킴.

4-3-1. 표준화

4-3.raw_student_data.csv243Bytes

학생 10명의 수학 점수와 100m 달리기 기록 데이터를 불러와 표준화(Standardization) 과정을 통해 전처리하자.

다음 세 가지 단계로 막대그래프를 시각화하자:

1.표준화 전:
   - 수학 점수와 달리기 기록을 하나의 그래프에 그룹형 막대그래프로 표시
   - X축: 학생 번호, Y축: 각 점수(단위 다름)
   - 색상과 범례로 두 데이터를 구분

2.표준화 후:
   - 표준화된 수학 점수와 달리기 기록을 **하나의 그래프에 그룹형 막대그래프로 함께 표시**
   - X축: 학생 번호, Y축: 표준화 점수(Z-score)
   - 색상과 범례로 두 데이터를 구분

3.종합 점수:
   - 표준화된 데이터를 이용해 (수학↑, 달리기↓ 반영) 종합 점수를 계산하고
   - 각 학생의 종합 점수를 하나의 막대그래프로 표시