# 7-1. Correlation 상관관계 분석

# 🌤 상관분석 실습 교안

## 주제: 기온과 강수량이 편의점 매출에 미치는 영향 분석

---

## 1. 실습 목표

- 기온과 강수량이 매출에 어떤 상관관계를 가지는지 파악하기.

- 공공데이터 포털을 활용해 실제 데이터를 수집하고, 분석용 데이터셋을 구성하기.

- ChatGPT를 이용해 상관계수를 계산하고 결과를 시각화하기.

---

## 2. 데이터 수집

### (1) 국가통계포털(KOSIS)

- **목적:** 기온 및 강수량이 매출에 미치는 영향을 보기 위해, 편의점 매출 데이터를 확보함.

- **웹사이트:** [국가통계포털(KOSIS)](https://kosis.kr/search/search.do)

- **데이터 종류:** 편의점 매출 동향 데이터

### 🔹 수집 절차

1. KOSIS 접속 후 검색창에 **"편의점"** 입력.

2. 검색 결과 중 **'편의점 매출 동향(품목별)'** 데이터 선택.

3. **기간 설정:** 2015년 1월 ~ 2024년 12월.

4. **다운로드:** CSV 형식으로 저장.

- 편의점 검색>편의점 매출 동향(품목별)

![Image](https://upload.cafenono.com/image/slashpageHome/20251109/232655_cAcHacX7uIWllnItk2?q=80&s=1280x180&t=outside&f=webp)

- 행 정렬 : 시점

![Image](https://upload.cafenono.com/image/slashpageHome/20251109/233108_j5T63VZ6OJFc59JH7e?q=80&s=1280x180&t=outside&f=webp)

- `부가기능`' > '원자료 함께 보기' 선택

- 다운로드

![Image](https://upload.cafenono.com/image/slashpageHome/20251109/233246_iebY5082c0KMDfqdJ5?q=80&s=1280x180&t=outside&f=webp)

---

### (2) 기상청 기상자료개방포털

- **목적:** 매출 변화에 영향을 줄 수 있는 기온과 강수량 데이터를 확보함.

- **웹사이트:** [기상자료개방포털](https://data.kma.go.kr/stcs/grnd/grndRnList.do?pgmNo=69)

- **데이터 종류:** 월별 평균 기온, 월별 강수량

### 🔹 수집 절차

1. 포털 접속 후 **'기온 분석', '강수량 분석'** 데이터 선택.

2. **조건 설정:** `2015년 ~ 2024년 12월`, `전국` 기준.

3. CSV 파일로 다운로드하여 저장.

![Image](https://upload.cafenono.com/image/slashpageHome/20251109/234427_ZMXp9F8oz8tkqahcGk?q=80&s=1280x180&t=outside&f=webp)

---

## 3. 데이터 구성 및 통합

### (1) 다운로드한 파일

- **편의점 매출 데이터:** 월별 품목별 매출액.

- **기온 데이터:** 월별 평균 기온 정보.

- **강수량 데이터:** 월별 총 강수량 정보.

- https://drive.google.com/file/d/1BdEKtPWCGoA5ZDJoxuswzRI9sQqgDAbR/view?usp=sharing

---

### (2) 데이터 전처리

- ChatGPT로 각 파일들의 EDA 및 전처리 진행

- 라이언 추천

    - ChatGPT로 3개 raw data에 대한 EDA 및 전처리 내용 등을 문의

        - GPT로 전처리를 하는 경우에는 파일 하나씩 단계별로 접근 추천

        - 단계별로 하나씩 하더라도, GPT를 이용한 다단계 전처리는 할루시네이션으로 속 터질 수 있음

    - GPT 결과가 원활하지 않은 경우, 파워쿼리로 전처리 및 데이터 통합 작업 진행 추천함

```
<편의점_매출_동향_품목별.csv> 전처리
‘총계’행을 제거해 줘
‘소계’가 있는 행을 제거해 줘
인덱스와 품목별(1) 칼럼을 제거해 줘
‘전년동월대비 매출증감률(%)’이 있는 칼럼을 제거해 줘
전년동월대비 매출증감률 칼럼이 제거되지 않았는데 다시 제거해 줘
칼럼명에 ‘.1’이 포함된 칼럼을 제거해 줘
‘품목별(2)’ 칼럼명을 ‘품목별’로 바꿔 줘
‘품목별(2)’로 되어 있는 행을 제거해 줘
데이터를 다운로드할 수 있게 해 줘

<강수량_데이터.csv> 전처리
전처리해 줘
지점 칼럼을 제거해 줘

<기온_데이터.csv> 전처리
전처리해 줘
평균최저기온과 평균최고기온 칼럼을 제거해 줘
```

---

### (3) 데이터 통합

- 세 개의 데이터를 **'월 단위 기준'**으로 병합.

- 각 데이터의 기준 열(예: '연월')을 기준으로 결합하여 분석용 데이터셋 구성.

```
월별로 3개 파일을 통합해 줘
품목명 열을 기준으로 정렬하고, 연월 기준으로 병합해 줘
인덱스 열 삭제하고 최종 결과를 CSV 파일로 저장해 줘
```

---

## 4. 분석 준비

### (1) 통합 데이터셋 구성

- 월별 단위로 **기온**, **강수량**, **매출액**을 하나의 표로 결합함.

    - https://drive.google.com/file/d/1dJEUeqXRUTfCkGzB6X91EgVYm27n8G5_/view?usp=sharing 

- 컬럼:

![Image](https://upload.cafenono.com/image/slashpageHome/20251109/234029_HY94BbQf7zUGxZ5pdl?q=80&s=1280x180&t=outside&f=webp)

---

## 5. 데이터 분석

> 한글이 깨질 때,

```
프로젝트 폴더 지침과 파일 참조해서 한글 표시해줘
```

```
신선식품과 기온과의 상관관계를 분석하고 산점도를 그려줘
```

> GPT

![Image](https://upload.cafenono.com/image/slashpageHome/20251110/015318_kwjuAY91iNNbZT0wuj?q=80&s=1280x180&t=outside&f=webp)

✅ **분석 결과 요약 — 신선식품(즉석·신선 일부)과 평균기온 간 상관관계**

---

### 📊 데이터 기반 분석 결과

- **상관계수 (r)** = **-0.013**

- **해석:** 두 변수 간의 상관계수가 0에 매우 가까움 → **기온과 신선식품 매출 간에 사실상 상관관계가 없음**.

---

### 📈 시각적 해석 (산점도 분석)

- 점들이 전반적으로 **균일하게 흩어져 있음**, 뚜렷한 상승 혹은 하강 패턴이 없음.

- 즉, 기온이 높거나 낮은 달 모두 신선식품 매출에 일관된 영향이 나타나지 않음.

- 계절적 요인보다 **내부 프로모션·소비 패턴·행사 요인**의 영향이 더 클 가능성이 큼.

---

### 💡 시사점

- 기온 변화만으로는 신선식품 매출을 설명하기 어려움.

- 따라서 날씨 기반 판매 전략보다 **상품 구성, 마케팅 캠페인, 시간대별 수요 분석** 등이 더 효과적임.

- 향후 일별·시간대별 데이터로 분석 단위를 세분화하면, **기온 영향의 미세 패턴**을 확인할 수 있음.

```
강수량과 신선식품 매출 증감률 관계 분석해 줘
```

> GPT

![Image](https://upload.cafenono.com/image/slashpageHome/20251110/015716_H1MUvv0nAieSzoYKFJ?q=80&s=1280x180&t=outside&f=webp)

✅ **분석 결과 요약 — 신선식품 매출과 강수량 간 상관관계**

---

### 📊 데이터 분석 결과

- **상관계수 (r)** = **-0.071**

- **해석:** 신선식품 매출과 강수량 사이에는 **약한 음의 상관관계**가 있음.
- → 즉, 비가 많이 오는 달일수록 신선식품 매출이 **소폭 감소하는 경향**을 보임.

---

### 📈 시각적 해석 (산점도 분석)

- 점들이 전반적으로 **불규칙하게 분포**되어 있으며 뚜렷한 패턴이 없음.

- 다만 **강수량이 많을 때 일부 낮은 매출 구간**이 나타남.

- 이는 비가 오는 시기에 외출 감소로 인한 **즉석식품·도시락류 소비 감소 가능성**을 시사함.

---

### 💡 시사점

- **강수량이 신선식품 매출에 미치는 영향은 미미함.**

- 그러나 매출이 약간 감소하는 방향성이 확인되므로,
- → 장마철이나 폭우 기간에는 **즉석식품 프로모션 강화 또는 배달형 상품 전략**이 필요할 수 있음.

- **기온보다 강수량이 매출 변화에 조금 더 영향을 주는 요인**으로 보이지만, 통계적으로는 유의하지 않음.

```
각 품목별 매출 증감률의 트렌드 분석해 줘
```

> GPT

![Image](https://upload.cafenono.com/image/slashpageHome/20251110/015855_lv06k3EWOKn5g4aHdb?q=80&s=1280x180&t=outside&f=webp)

✅ **분석 결과 요약 — 품목별 매출 증감률 트렌드 분석 (2015~2024)**

---

### 📊 데이터 개요

- 분석 기간: **2015년 1월 ~ 2024년 12월 (120개월)**

- 분석 대상 품목:
- **생활용품, 잡화, 담배 등 기타, 음료 등 가공, 즉석(신선일부)**

- 지표: 각 품목의 **월별 매출 증감률(%)**

---

### 📈 트렌드 분석 결과

| 품목 | 주요 추세 요약 |
| --- | --- |
| **생활용품** | 전반적으로 완만한 등락을 반복하며, 2020년경 코로나 시기 이후 일시적 급등 후 안정화. 생활 필수품 수요 증가 시 반응이 뚜렷함. |
| **잡화** | 변동 폭이 크며, 2016 ~ 2017년 급등 구간 존재. 이후 점진적으로 하락하며 최근엔 0~10% 수준에서 안정. |
| **담배 등 기타** | 2015~2017년 큰 폭 상승 후 장기적으로 완만한 하락세. 규제 및 건강 이슈의 영향으로 해석 가능. |
| **음료 등 가공** | 여름철 반복적인 계절 패턴을 보이며, 전체적으로 완만한 성장세 유지. 날씨 요인과 높은 상관 예상. |
| **즉석(신선일부)** | 계절성 영향과 프로모션 시점에 민감하게 반응하며, 일시적인 급등과 급락 구간이 반복됨. |

---

### 🔍 종합 해석

- 전 품목이 2020년을 전후로 **코로나19 시기 매출 변동 폭이 급격히 확대**되었다가 이후 안정화되는 공통 패턴 존재.

- **음료와 즉석식품류는 계절적 영향이 강함**, 반면 생활용품·담배류는 비교적 안정적인 수요 구조.

- 장기적으로는 전 품목이 **증감률 0~10%대의 완만한 변동 구간**으로 수렴하는 추세.

---

### 💡 시사점

- 매출 트렌드는 **시기별 외부 요인(기온, 강수량, 사회적 요인)**에 따라 달라지며,
- → 단순 기상 변수보다 **시기별 프로모션·이벤트 요인**이 큰 영향을 미침.

- 향후 예측 모델 수립 시 **계절성(Seasonality) + 비계절성 요인(프로모션, 경기 변수)**을 함께 반영해야 함.

```
신선식품의 매출 증감률과 기온, 그리고 강수량과의 상관분석에 대한 가설검정을 해 줘
```

> GPT

✅ **가설검정 결과 — 신선식품 매출 증감률과 기온·강수량 간 상관관계**

---

### 📊 1️⃣ 분석 개요

- **목적:** 기온(℃)과 강수량(mm)이 신선식품(즉석·신선일부) 매출 증감률에 유의한 영향을 미치는지 검정.

- **검정 방법:** 피어슨 상관분석(Pearson Correlation Test)

---

### 📈 2️⃣ 분석 결과 요약

| 비교 변수 | 상관계수 (r) | p-value | 해석 |
| --- | --- | --- | --- |
| **평균기온(℃)** vs **신선식품 매출** | -0.013 | 0.888 | 상관 거의 없음, 통계적으로 유의하지 않음 |
| **강수량(mm)** vs **신선식품 매출** | -0.071 | 0.441 | 약한 음의 상관, 통계적으로 유의하지 않음 |

---

### 📊 3️⃣ 가설 설정

### (1) 기온과 신선식품 매출 간 관계

- **귀무가설 (H₀):** 기온과 신선식품 매출 간에는 상관관계가 없다.

- **대립가설 (H₁):** 기온과 신선식품 매출 간에는 상관관계가 있다.
- → p-value = 0.888 > 0.05 → **귀무가설 채택.**

### (2) 강수량과 신선식품 매출 간 관계

- **귀무가설 (H₀):** 강수량과 신선식품 매출 간에는 상관관계가 없다.

- **대립가설 (H₁):** 강수량과 신선식품 매출 간에는 상관관계가 있다.
- → p-value = 0.441 > 0.05 → **귀무가설 채택.**

---

### 💡 4️⃣ 해석 및 시사점

- 두 변수 모두 신선식품 매출과의 상관이 **통계적으로 유의하지 않음**.

- 즉, **기온과 강수량 변화는 신선식품 매출 증감에 의미 있는 영향을 주지 않음.**

- 신선식품 매출은 날씨보다는 **계절별 소비 트렌드, 행사·프로모션, 요일 패턴 등**의 요인에 더 민감하게 반응할 가능성.

- 향후에는 일별/시간대별 단위로 세분화된 데이터 분석이 필요함.

```
생활용품과 강수량과의 상관분석을 하고 산점도를 그리고 상관계수를 표시해 줘
```

> GPT

![Image](https://upload.cafenono.com/image/slashpageHome/20251110/020202_rB09YsCR40opj8z4dK?q=80&s=1280x180&t=outside&f=webp)

✅ **분석 결과 — 생활용품 매출과 강수량 간 상관분석**

---

### 📊 통계 요약

- **상관계수 (r)** = **+0.024**

- **해석:** 거의 0에 가까운 양의 상관관계 → **강수량과 생활용품 매출 간의 관계는 사실상 없음.**

---

### 📈 시각적 분석 (산점도)

- 산점도에서 점들이 **랜덤하게 퍼져 있음**, 명확한 선형 패턴이 나타나지 않음.

- 강수량이 증가하더라도 생활용품 매출이 일관되게 증가하거나 감소하지 않음.

- 즉, 비가 오든 안 오든 **생활용품 매출은 거의 영향을 받지 않음.**

---

### 💡 시사점

- 생활용품은 날씨 요인보다는 **일상 소비 주기나 프로모션 이벤트**에 의해 좌우되는 경향이 강함.

- 강수량이 많은 달에도 매출 변동이 작으므로, **기후 기반 판매 예측 변수로는 부적절.**

- 향후 분석에서는 **가격 정책, 생활용품 카테고리 내 구성비 변화, 소비 트렌드** 등을 함께 고려할 필요 있음.

```
생활용품과 강수량과의 상관분석에 대한 가설검정을 해 줘
```

> GPT

✅ **가설검정 결과 — 생활용품 매출과 강수량 간 상관관계**

---

### 📊 1️⃣ 분석 개요

- **목적:** 강수량이 생활용품 매출 증감률에 유의한 영향을 미치는지 검정

- **검정 방법:** 피어슨 상관분석(Pearson Correlation Test)

---

### 📈 2️⃣ 통계 결과

| 변수 관계 | 상관계수 (r) | p-value | 해석 |
| --- | --- | --- | --- |
| **생활용품** ↔ **강수량(mm)** | +0.024 | 0.791 | 상관 거의 없음, 통계적으로 유의하지 않음 |

---

### 📊 3️⃣ 가설 설정

- **귀무가설 (H₀):** 생활용품 매출과 강수량 간에는 상관관계가 없다.

- **대립가설 (H₁):** 생활용품 매출과 강수량 간에는 상관관계가 있다.

> 📌 p-value = 0.791 > 0.05 → **귀무가설 채택.**
> 즉, 강수량과 생활용품 매출 간에는 **통계적으로 유의미한 상관관계가 존재하지 않음.**

---

### 💡 4️⃣ 해석 및 시사점

- 강수량 증감이 생활용품 매출에 **거의 영향을 미치지 않음**.

- 생활용품은 날씨보다는 **소비자 일상 루틴, 가격 정책, 시즌별 수요 요인**에 의해 변화하는 품목군으로 해석됨.

- 따라서, 강수량을 생활용품 매출 예측 모델의 주요 변수로 사용하는 것은 **비효율적**.

---

# 📊 상관분석 실습 결과

## 주제: 기온·강수량과 편의점 품목별 매출 간의 관계

---

## 1️⃣ 데이터 개요

- 분석 대상: 2015년 1월 ~ 2024년 12월 (총 120개월)

- 주요 변수:

    - **매출 관련:** 생활용품, 잡화, 담배 등 기타, 음료 등 가공, 즉석(신선 일부)

    - **기상 관련:** 평균기온(℃), 강수량(mm)

- 데이터 형태: 월별 기준 통합 CSV (결측치 없음, 수치형 데이터 7개 변수)

---

## 2️⃣ 상관계수 분석 결과

| 변수 | 강수량(mm)과의 상관 | 평균기온(℃)과의 상관 | 주요 특징 |
| --- | --- | --- | --- |
| **생활용품** | +0.02 | -0.04 | 기온·강수량 영향 거의 없음 |
| **잡화** | +0.16 | +0.01 | 날씨 요인과 상관 약함 |
| **담배 등 기타** | -0.06 | +0.04 | 기온과 약한 양의 상관 |
| **음료 등 가공** | -0.16 | -0.03 | 강수량 많을수록 매출 약간 감소 |
| **즉석(신선일부)** | -0.07 | -0.01 | 날씨와의 상관 매우 약함 |

> 🔸 강수량과 평균기온은 서로 **0.72**의 높은 양의 상관을 보임 → 비가 많은 달일수록 평균기온이 높은 여름철 특성이 반영된 결과.
> 🔸 품목 간에는 **음료-즉석식품(0.78)**, **생활용품-즉석식품(0.50)** 등의 강한 양의 상관관계 존재 → 편의점 내 품목 매출 간 동조 현상.

---

## 3️⃣ 주요 해석

1. **기온의 영향:**

2. **강수량의 영향:**

- 음료 등 가공(-0.16), 즉석식품(-0.07)에서 약한 음의 상관 → 비가 많이 오는 시기에 외출 감소로 즉시 소비형 제품 구매가 줄어드는 경향.

3. **품목 간 관계:**

- 음료와 즉석식품 매출이 함께 오르내리는 패턴 (r=0.78).

- 생활용품·잡화와 같은 일반소비재 품목은 계절 요인보다 내부 프로모션, 소비패턴 등의 영향을 받을 가능성.

---

## 4️⃣ 시각적 결과

히트맵 분석 결과, 변수 간 상관관계는 다음과 같이 요약됨:

- **빨간색(+)**: 함께 증가하거나 감소하는 관계

- **파란색(-)**: 반대로 움직이는 관계

![Image](https://upload.cafenono.com/image/slashpageHome/20251110/014856_zbTvtJPQwu1T1UmHRE?q=80&s=1280x180&t=outside&f=webp)

- 모든 품목에서 기온과의 상관계수가 ±0.05 미만 → 기온이 매출에 직접적인 영향을 미치지 않음.

- 이는 월평균 단위 데이터로 계절적 패턴이 평준화되었기 때문일 가능성 있음.

> ▶ 강수량과 평균기온은 뚜렷한 **양의 상관**,
> ▶ 음료·즉석식품 매출은 **서로 매우 강한 양의 상관**,
> ▶ 대부분의 품목은 **날씨 변수와 약한 상관**을 보임.

---

## 5️⃣ 결론 및 실무적 시사점

- **단기 날씨 변화(기온·강수량)**는 월평균 매출에 큰 영향을 주지 않음.

- 그러나 **품목 간 동시 판매 패턴**이 존재하므로,
- → **묶음 할인 전략**이나 **카테고리 간 진열 최적화** 등에 활용 가능.

- 향후 일별·시간대별 데이터로 분석 단위를 세분화하면,
- → 날씨 요인이 매출에 미치는 미세한 패턴까지 파악 가능함.

---

For the site tree, see the [root Markdown](https://slashpage.com/lion.md).
