데이터 수집 및 전처리

축하합니다 :) 프로젝트 설정 단계를 완료했다면 이제 진짜 데이터의 세계로 뛰어들 준비가 되었습니다. 여기서는 데이터를 수집할 수 있는 전략, 정제 단계, 초기 탐색에 대해 알아봅니다.

1. 🎣 데이터 수집 전략

프로젝트 설정 단계에서 정한 목적과 가설에 따라, 데이터를 수집하기 위한 다양한 전략이 존재합니다.

•

공개 데이터셋: 많은 기관과 웹사이트가 공공 사용을 위한 무료 데이터셋을 제공합니다. 여기 공개 데이터셋 목록을 탐색할 수 있습니다.

•

APIs: 많은 서비스가 프로그래매틱하게 데이터를 수집할 수 있게 하는 API를 제공합니다. 사용할 수 있는 API 목록을 확인하세요.

•

웹 스크래핑: 데이터가 쉽게 사용할 수 없는 경우, 웹 스크래핑을 사용하여 직접 수집해야 할 수 있습니다. 여기 BeautifulSoup을 사용한 웹 스크래핑에 대한 파이썬 튜토리얼이 있습니다.

데이터를 수집한 후에는 소매를 걷어붙이고 정제하기 시작할 시간입니다:

•

누락된 값 처리: 상황에 따라 기본값, 평균/중앙값으로 채우거나 무시할 수 있습니다. 누락된 값 다루기에 대한 가이드가 여기 있습니다.

•

중복 제거: 중복된 항목은 결과를 왜곡시킬 수 있습니다. Pandas에는 이 작업을 위한 편리한 함수, drop_duplicates()가 있습니다.

•

형식 문제 수정: 모든 데이터가 올바른 형식인지 확인하세요. 예를 들어, 날짜는 datetime 형식이어야 하며, 범주형 데이터는 문자열이나 카테고리 형식이어야 합니다.

•

이상치 감지 및 처리: 분석에 따라 이상치는 결과를 왜곡시킬 수 있습니다. 이상치를 다루는 방법에 대한 가이드가 여기 있습니다.

데이터가 정제되면, 데이터셋을 더 잘 이해하기 위해 일부 초기 탐색이 필요한 시간입니다:

•

기술 통계: pandas의 describe()와 같은 함수를 사용하여 데이터에 대한 빠른 개요를 얻습니다.

•

시각적 탐색: 히스토그램, 산점도, 박스 플롯 등을 그려 데이터를 시각화합니다. 이는 종종 트렌드, 패턴 또는 이상을 발견하는 데 도움이 될 수 있습니다.

•

상관 관계 분석: 상관 행렬을 사용하여 변수 간의 관계를 식별합니다. pandas에서 상관 행렬을 계산하는 방법은 여기에 있습니다.

기억하세요, 쓰레기를 넣으면 쓰레기가 나옵니다. 그러므로 데이터를 깨끗하고 잘 이해하게 만드는 것이 분석에서 성공으로 이끄는 길을 설정할 것입니다. 즐거운 데이터 다루기가 되세요! 🎉🧹🔬