7-1. Correlation 상관관계 분석

🌤 상관분석 실습 교안

주제: 기온과 강수량이 편의점 매출에 미치는 영향 분석

1. 실습 목표

기온과 강수량이 매출에 어떤 상관관계를 가지는지 파악하기.
공공데이터 포털을 활용해 실제 데이터를 수집하고, 분석용 데이터셋을 구성하기.
ChatGPT를 이용해 상관계수를 계산하고 결과를 시각화하기.

2. 데이터 수집

(1) 국가통계포털(KOSIS)

목적: 기온 및 강수량이 매출에 미치는 영향을 보기 위해, 편의점 매출 데이터를 확보함.
데이터 종류: 편의점 매출 동향 데이터

🔹 수집 절차

1.
KOSIS 접속 후 검색창에 "편의점" 입력.
2.
검색 결과 중 '편의점 매출 동향(품목별)' 데이터 선택.
3.
기간 설정: 2015년 1월 ~ 2024년 12월.
4.
다운로드: CSV 형식으로 저장.
편의점 검색>편의점 매출 동향(품목별)
행 정렬 : 시점
부가기능' > '원자료 함께 보기' 선택
다운로드

(2) 기상청 기상자료개방포털

목적: 매출 변화에 영향을 줄 수 있는 기온과 강수량 데이터를 확보함.
데이터 종류: 월별 평균 기온, 월별 강수량

🔹 수집 절차

1.
포털 접속 후 '기온 분석', '강수량 분석' 데이터 선택.
2.
조건 설정: 2015년 ~ 2024년 12월, 전국 기준.
3.
CSV 파일로 다운로드하여 저장.

3. 데이터 구성 및 통합

(1) 다운로드한 파일

편의점 매출 데이터: 월별 품목별 매출액.
기온 데이터: 월별 평균 기온 정보.
강수량 데이터: 월별 총 강수량 정보.

(2) 데이터 전처리

ChatGPT로 각 파일들의 EDA 및 전처리 진행
라이언 추천
ChatGPT로 3개 raw data에 대한 EDA 및 전처리 내용 등을 문의
GPT로 전처리를 하는 경우에는 파일 하나씩 단계별로 접근 추천
단계별로 하나씩 하더라도, GPT를 이용한 다단계 전처리는 할루시네이션으로 속 터질 수 있음
GPT 결과가 원활하지 않은 경우, 파워쿼리로 전처리 및 데이터 통합 작업 진행 추천함
<편의점_매출_동향_품목별.csv> 전처리 ‘총계’행을 제거해 줘 ‘소계’가 있는 행을 제거해 줘 인덱스와 품목별(1) 칼럼을 제거해 줘 ‘전년동월대비 매출증감률(%)’이 있는 칼럼을 제거해 줘 전년동월대비 매출증감률 칼럼이 제거되지 않았는데 다시 제거해 줘 칼럼명에 ‘.1’이 포함된 칼럼을 제거해 줘 ‘품목별(2)’ 칼럼명을 ‘품목별’로 바꿔 줘 ‘품목별(2)’로 되어 있는 행을 제거해 줘 데이터를 다운로드할 수 있게 해 줘 <강수량_데이터.csv> 전처리 전처리해 줘 지점 칼럼을 제거해 줘 <기온_데이터.csv> 전처리 전처리해 줘 평균최저기온과 평균최고기온 칼럼을 제거해 줘

(3) 데이터 통합

세 개의 데이터를 **'월 단위 기준'**으로 병합.
각 데이터의 기준 열(예: '연월')을 기준으로 결합하여 분석용 데이터셋 구성.
월별로 3개 파일을 통합해 줘 품목명 열을 기준으로 정렬하고, 연월 기준으로 병합해 줘 인덱스 열 삭제하고 최종 결과를 CSV 파일로 저장해 줘

4. 분석 준비

(1) 통합 데이터셋 구성

월별 단위로 기온, 강수량, 매출액을 하나의 표로 결합함.
컬럼:

5. 데이터 분석

💬
한글이 깨질 때,
프로젝트 폴더 지침과 파일 참조해서 한글 표시해줘
신선식품과 기온과의 상관관계를 분석하고 산점도를 그려줘
💬
GPT
분석 결과 요약 — 신선식품(즉석·신선 일부)과 평균기온 간 상관관계

📊 데이터 기반 분석 결과

상관계수 (r) = -0.013
해석: 두 변수 간의 상관계수가 0에 매우 가까움 → 기온과 신선식품 매출 간에 사실상 상관관계가 없음.

📈 시각적 해석 (산점도 분석)

점들이 전반적으로 균일하게 흩어져 있음, 뚜렷한 상승 혹은 하강 패턴이 없음.
즉, 기온이 높거나 낮은 달 모두 신선식품 매출에 일관된 영향이 나타나지 않음.
계절적 요인보다 내부 프로모션·소비 패턴·행사 요인의 영향이 더 클 가능성이 큼.

💡 시사점

기온 변화만으로는 신선식품 매출을 설명하기 어려움.
따라서 날씨 기반 판매 전략보다 상품 구성, 마케팅 캠페인, 시간대별 수요 분석 등이 더 효과적임.
향후 일별·시간대별 데이터로 분석 단위를 세분화하면, 기온 영향의 미세 패턴을 확인할 수 있음.
강수량과 신선식품 매출 증감률 관계 분석해 줘
💬
GPT
분석 결과 요약 — 신선식품 매출과 강수량 간 상관관계

📊 데이터 분석 결과

상관계수 (r) = -0.071
해석: 신선식품 매출과 강수량 사이에는 약한 음의 상관관계가 있음.
→ 즉, 비가 많이 오는 달일수록 신선식품 매출이
소폭 감소하는 경향을 보임.

📈 시각적 해석 (산점도 분석)

점들이 전반적으로 불규칙하게 분포되어 있으며 뚜렷한 패턴이 없음.
다만 강수량이 많을 때 일부 낮은 매출 구간이 나타남.
이는 비가 오는 시기에 외출 감소로 인한 즉석식품·도시락류 소비 감소 가능성을 시사함.

💡 시사점

강수량이 신선식품 매출에 미치는 영향은 미미함.
그러나 매출이 약간 감소하는 방향성이 확인되므로,
→ 장마철이나 폭우 기간에는
즉석식품 프로모션 강화 또는 배달형 상품 전략이 필요할 수 있음.
기온보다 강수량이 매출 변화에 조금 더 영향을 주는 요인으로 보이지만, 통계적으로는 유의하지 않음.
각 품목별 매출 증감률의 트렌드 분석해 줘
💬
GPT
분석 결과 요약 — 품목별 매출 증감률 트렌드 분석 (2015~2024)

📊 데이터 개요

분석 기간: 2015년 1월 ~ 2024년 12월 (120개월)
분석 대상 품목:
생활용품, 잡화, 담배 등 기타, 음료 등 가공, 즉석(신선일부)
지표: 각 품목의 월별 매출 증감률(%)

📈 트렌드 분석 결과

품목
주요 추세 요약
생활용품
전반적으로 완만한 등락을 반복하며, 2020년경 코로나 시기 이후 일시적 급등 후 안정화. 생활 필수품 수요 증가 시 반응이 뚜렷함.
잡화
변동 폭이 크며, 2016 ~ 2017년 급등 구간 존재. 이후 점진적으로 하락하며 최근엔 0~10% 수준에서 안정.
담배 등 기타
2015~2017년 큰 폭 상승 후 장기적으로 완만한 하락세. 규제 및 건강 이슈의 영향으로 해석 가능.
음료 등 가공
여름철 반복적인 계절 패턴을 보이며, 전체적으로 완만한 성장세 유지. 날씨 요인과 높은 상관 예상.
즉석(신선일부)
계절성 영향과 프로모션 시점에 민감하게 반응하며, 일시적인 급등과 급락 구간이 반복됨.

🔍 종합 해석

전 품목이 2020년을 전후로 코로나19 시기 매출 변동 폭이 급격히 확대되었다가 이후 안정화되는 공통 패턴 존재.
음료와 즉석식품류는 계절적 영향이 강함, 반면 생활용품·담배류는 비교적 안정적인 수요 구조.
장기적으로는 전 품목이 증감률 0~10%대의 완만한 변동 구간으로 수렴하는 추세.

💡 시사점

매출 트렌드는 **시기별 외부 요인(기온, 강수량, 사회적 요인)**에 따라 달라지며,
→ 단순 기상 변수보다
시기별 프로모션·이벤트 요인이 큰 영향을 미침.
향후 예측 모델 수립 시 **계절성(Seasonality) + 비계절성 요인(프로모션, 경기 변수)**을 함께 반영해야 함.
신선식품의 매출 증감률과 기온, 그리고 강수량과의 상관분석에 대한 가설검정을 해 줘
💬
GPT
가설검정 결과 — 신선식품 매출 증감률과 기온·강수량 간 상관관계

📊 1️⃣ 분석 개요

목적: 기온(℃)과 강수량(mm)이 신선식품(즉석·신선일부) 매출 증감률에 유의한 영향을 미치는지 검정.
검정 방법: 피어슨 상관분석(Pearson Correlation Test)

📈 2️⃣ 분석 결과 요약

비교 변수
상관계수 (r)
p-value
해석
평균기온(℃) vs 신선식품 매출
-0.013
0.888
상관 거의 없음, 통계적으로 유의하지 않음
강수량(mm) vs 신선식품 매출
-0.071
0.441
약한 음의 상관, 통계적으로 유의하지 않음

📊 3️⃣ 가설 설정

(1) 기온과 신선식품 매출 간 관계

귀무가설 (H₀): 기온과 신선식품 매출 간에는 상관관계가 없다.
대립가설 (H₁): 기온과 신선식품 매출 간에는 상관관계가 있다.
→ p-value = 0.888 > 0.05 →
귀무가설 채택.

(2) 강수량과 신선식품 매출 간 관계

귀무가설 (H₀): 강수량과 신선식품 매출 간에는 상관관계가 없다.
대립가설 (H₁): 강수량과 신선식품 매출 간에는 상관관계가 있다.
→ p-value = 0.441 > 0.05 →
귀무가설 채택.

💡 4️⃣ 해석 및 시사점

두 변수 모두 신선식품 매출과의 상관이 통계적으로 유의하지 않음.
즉, 기온과 강수량 변화는 신선식품 매출 증감에 의미 있는 영향을 주지 않음.
신선식품 매출은 날씨보다는 계절별 소비 트렌드, 행사·프로모션, 요일 패턴 등의 요인에 더 민감하게 반응할 가능성.
향후에는 일별/시간대별 단위로 세분화된 데이터 분석이 필요함.
생활용품과 강수량과의 상관분석을 하고 산점도를 그리고 상관계수를 표시해 줘
💬
GPT
분석 결과 — 생활용품 매출과 강수량 간 상관분석

📊 통계 요약

상관계수 (r) = +0.024
해석: 거의 0에 가까운 양의 상관관계 → 강수량과 생활용품 매출 간의 관계는 사실상 없음.

📈 시각적 분석 (산점도)

산점도에서 점들이 랜덤하게 퍼져 있음, 명확한 선형 패턴이 나타나지 않음.
강수량이 증가하더라도 생활용품 매출이 일관되게 증가하거나 감소하지 않음.
즉, 비가 오든 안 오든 생활용품 매출은 거의 영향을 받지 않음.

💡 시사점

생활용품은 날씨 요인보다는 일상 소비 주기나 프로모션 이벤트에 의해 좌우되는 경향이 강함.
강수량이 많은 달에도 매출 변동이 작으므로, 기후 기반 판매 예측 변수로는 부적절.
향후 분석에서는 가격 정책, 생활용품 카테고리 내 구성비 변화, 소비 트렌드 등을 함께 고려할 필요 있음.
생활용품과 강수량과의 상관분석에 대한 가설검정을 해 줘
💬
GPT
가설검정 결과 — 생활용품 매출과 강수량 간 상관관계

📊 1️⃣ 분석 개요

목적: 강수량이 생활용품 매출 증감률에 유의한 영향을 미치는지 검정
검정 방법: 피어슨 상관분석(Pearson Correlation Test)

📈 2️⃣ 통계 결과

변수 관계
상관계수 (r)
p-value
해석
생활용품강수량(mm)
+0.024
0.791
상관 거의 없음, 통계적으로 유의하지 않음

📊 3️⃣ 가설 설정

귀무가설 (H₀): 생활용품 매출과 강수량 간에는 상관관계가 없다.
대립가설 (H₁): 생활용품 매출과 강수량 간에는 상관관계가 있다.
📌 p-value = 0.791 > 0.05 → 귀무가설 채택.
즉, 강수량과 생활용품 매출 간에는
통계적으로 유의미한 상관관계가 존재하지 않음.

💡 4️⃣ 해석 및 시사점

강수량 증감이 생활용품 매출에 거의 영향을 미치지 않음.
생활용품은 날씨보다는 소비자 일상 루틴, 가격 정책, 시즌별 수요 요인에 의해 변화하는 품목군으로 해석됨.
따라서, 강수량을 생활용품 매출 예측 모델의 주요 변수로 사용하는 것은 비효율적.

📊 상관분석 실습 결과

주제: 기온·강수량과 편의점 품목별 매출 간의 관계

1️⃣ 데이터 개요

분석 대상: 2015년 1월 ~ 2024년 12월 (총 120개월)
주요 변수:
매출 관련: 생활용품, 잡화, 담배 등 기타, 음료 등 가공, 즉석(신선 일부)
기상 관련: 평균기온(℃), 강수량(mm)
데이터 형태: 월별 기준 통합 CSV (결측치 없음, 수치형 데이터 7개 변수)

2️⃣ 상관계수 분석 결과

변수
강수량(mm)과의 상관
평균기온(℃)과의 상관
주요 특징
생활용품
+0.02
-0.04
기온·강수량 영향 거의 없음
잡화
+0.16
+0.01
날씨 요인과 상관 약함
담배 등 기타
-0.06
+0.04
기온과 약한 양의 상관
음료 등 가공
-0.16
-0.03
강수량 많을수록 매출 약간 감소
즉석(신선일부)
-0.07
-0.01
날씨와의 상관 매우 약함
🔸 강수량과 평균기온은 서로 0.72의 높은 양의 상관을 보임 → 비가 많은 달일수록 평균기온이 높은 여름철 특성이 반영된 결과.
🔸 품목 간에는
음료-즉석식품(0.78), 생활용품-즉석식품(0.50) 등의 강한 양의 상관관계 존재 → 편의점 내 품목 매출 간 동조 현상.

3️⃣ 주요 해석

1.
기온의 영향:
2.
강수량의 영향:
음료 등 가공(-0.16), 즉석식품(-0.07)에서 약한 음의 상관 → 비가 많이 오는 시기에 외출 감소로 즉시 소비형 제품 구매가 줄어드는 경향.
3.
품목 간 관계:
음료와 즉석식품 매출이 함께 오르내리는 패턴 (r=0.78).
생활용품·잡화와 같은 일반소비재 품목은 계절 요인보다 내부 프로모션, 소비패턴 등의 영향을 받을 가능성.

4️⃣ 시각적 결과

히트맵 분석 결과, 변수 간 상관관계는 다음과 같이 요약됨:
빨간색(+): 함께 증가하거나 감소하는 관계
파란색(-): 반대로 움직이는 관계
모든 품목에서 기온과의 상관계수가 ±0.05 미만 → 기온이 매출에 직접적인 영향을 미치지 않음.
이는 월평균 단위 데이터로 계절적 패턴이 평준화되었기 때문일 가능성 있음.
▶ 강수량과 평균기온은 뚜렷한 양의 상관,
▶ 음료·즉석식품 매출은
서로 매우 강한 양의 상관,
▶ 대부분의 품목은
날씨 변수와 약한 상관을 보임.

5️⃣ 결론 및 실무적 시사점

**단기 날씨 변화(기온·강수량)**는 월평균 매출에 큰 영향을 주지 않음.
그러나 품목 간 동시 판매 패턴이 존재하므로,
묶음 할인 전략이나 카테고리 간 진열 최적화 등에 활용 가능.
향후 일별·시간대별 데이터로 분석 단위를 세분화하면,
→ 날씨 요인이 매출에 미치는 미세한 패턴까지 파악 가능함.
Contact : azureguy@empal.com / azureguy@cau.ac.kr