4-4. 정규화(normalization)

Source: 이기복(2025), "진짜 업무에 쓴느 챗GPT 노코드 데이터 분석", 디지털북스

개요

정의: 데이터의 모든 값을 0과 1 사이의 범위로 변환하는 전처리 기법임.
목적: 전체 데이터셋에서 각 값의 상대적 위치를 명확하게 파악하기 위함.
활용: 실무 데이터 분석 및 머신러닝 모델의 학습 효율 증진에 사용됨.

정규화 수식 (Min-Max Scaling)

X_norm = (X - X_min) / (X_max - X_min) (해당값-최소값) (최대값-최소값)

적용 예시

상황: 단위가 다른 학생별 '수학 점수'와 '달리기 기록' 데이터를 비교.
적용: 각 데이터를 정규화하여 "수학 점수 0.8", "달리기 기록 0.3" 등 0과 1 사이의 값으로 변환.
해석:
수학 점수(0.8): 상위 20% 수준에 해당.
달리기 기록(0.3): 상위 30% 수준에 해당 (값이 낮을수록 우수).
기대 효과: 서로 다른 단위의 데이터를 동일 척도상에서 비교할 수 있어, 직관적인 상대 평가가 가능해짐.

4-4-1. 정규화 처리(Min-Max Scaling)

학생 10명의 수학 점수와 100m 달리기 기록 데이터를 불러와 정규화(normalization) 과정을 통해 전처리하자. 다음 세 가지 단계로 막대그래프를 시각화하자: 1.정규화 전: - 수학 점수와 달리기 기록을 하나의 그래프에 그룹형 막대그래프로 표시 - X축: 학생 번호, Y축: 각 점수(단위 다름) - 색상과 범례로 두 데이터를 구분 2.정규화 후: - 정규화된 수학 점수와 달리기 기록을 **하나의 그래프에 그룹형 막대그래프로 함께 표시** - X축: 학생 번호, Y축: 정규화 점수(0~1 범위) - 색상과 범례로 두 데이터를 구분 3.종합 점수: - 정규화된 데이터를 이용해 (수학↑, 달리기↓ 반영) 종합 점수를 계산하고 - 각 학생의 종합 점수를 하나의 막대그래프로 표시
💬
gpt
1.
정규화 전 (Raw Data)
수학 점수와 100m 달리기 기록을 서로 다른 단위로 시각화
달리기 기록은 작을수록 좋은 성능이지만, 단위 차이가 크기 때문에 직접 비교 어려움
2.
정규화 후 그래프 (0~1 범위)
모든 값이 0~1 사이로 변환되어 서로 다른 단위를 동일 척도로 비교 가능
예: 0 → 가장 낮은 값 ; 1 → 가장 높은 값
주황색 막대(수학)가 클수록 수학 점수가 높고,
파란색 막대(달리기)가 작을수록 달리기 실력이 좋음을 의미.
3.
정규화 기반 종합 점수
계산식:
Composite Score=Math_Norm−Run_Norm
수학은 높을수록, 달리기 기록은 낮을수록 높은 종합 점수
막대가 위로 갈수록 전반적으로 우수한 학생
Contact : azureguy@empal.com / azureguy@cau.ac.kr