테마
공공 데이터 분석
Python과 Jupyter Notebook을 활용해 공공 데이터를 불러오고, 정리하고, 시각화하고, 자동으로 탐색하는 흐름을 단계별로 정리한 실습형 학습 자료
이 카테고리는 머신러닝 모델링보다도, 실제 CSV 데이터를 손에 잡히는 형태로 읽고 가공하고 시각화하는 데 초점을 둡니다. 공공 데이터 포털 자료를 예시로 사용하지만, 회사 내부 CSV나 로그성 데이터에도 그대로 응용할 수 있는 작업 흐름을 다룹니다.
학습 대상
- Python 기초 문법은 알지만 데이터 분석은 처음인 분
- 공공 데이터 포털의 CSV 파일을 활용해 보고 싶은 분
- Pandas와 Seaborn으로 실무 데이터를 다뤄 보고 싶은 분
- Folium을 활용한 지리 시각화에 관심 있는 분
- EDA(탐색적 데이터 분석) 자동화 도구를 배우고 싶은 분
학습 목표
- Jupyter Notebook 환경에서 데이터 분석 워크플로우를 구성할 수 있다
- Pandas로 CSV 데이터를 로드, 전처리, 변환, 병합할 수 있다
- Matplotlib과 Seaborn으로 범주형/수치형 데이터를 시각화할 수 있다
- Folium으로 지리 데이터를 지도 위에 표현할 수 있다
- missingno와 ydata-profiling으로 EDA를 자동화할 수 있다
선행 조건
- Python 기초 문법 (변수, 함수, 리스트, 딕셔너리)
- 터미널 기본 사용법
- Anaconda 또는 pip 패키지 관리 경험이 있으면 좋음
이 카테고리에서 익히는 흐름
- 노트북 환경을 준비하고 데이터를 빠르게 확인하는 방법
- Pandas로 결측치, 타입, 문자열, 집계를 다루는 방법
- Matplotlib, Seaborn, Folium으로 수치형/범주형/지리 데이터를 표현하는 방법
- missingno, ydata-profiling으로 EDA를 빠르게 시작하는 방법
학습 로드맵
핵심 키워드 맵
현재 공개된 문서
| 챕터 | 제목 | 핵심 내용 | 상태 |
|---|---|---|---|
| 01 | 주피터 노트북 사용법 | Jupyter Notebook/Lab, Anaconda, pip/venv, 셀 조작, 단축키 | 공개 |
| 02 | 판다스 기초 | read_csv, info, describe, head/tail, shape, 인코딩 | 공개 |
| 03 | 데이터 전처리 | 결측치 처리, 타입변환, 문자열 정제, 컬럼 제거 | 공개 |
| 04 | 데이터 변환과 병합 | melt, pivot, concat, groupby, pivot_table | 공개 |
| 05 | Matplotlib 기본 시각화 | plot, bar, hist, figure/axes 커스터마이징 | 공개 |
| 06 | Seaborn 범주형 시각화 | countplot, boxplot, violinplot, catplot, swarmplot | 공개 |
| 07 | Seaborn 수치형 시각화 | histplot/displot, kdeplot, regplot, heatmap, 상관분석 | 공개 |
| 08 | Folium 지리 시각화 | Map, Marker, CircleMarker, MarkerCluster, Choropleth | 공개 |
| 09 | EDA 자동화 | missingno, ydata-profiling, 결측치 시각화 | 공개 |
학습 팁
- 각 장의 Mermaid 다이어그램으로 전체 흐름을 먼저 파악한다
- 가능하면 Jupyter Notebook에서 직접 코드를 실행하며 학습한다
- 공공 데이터 포털(data.go.kr)에서 관심 있는 데이터를 다운로드하여 실습한다
- 전처리와 시각화는 반복 연습이 가장 중요하다
- 하나의 데이터셋으로 여러 시각화를 시도하며 각 그래프의 장단점을 비교한다
출처
- 원본 자료: 공공 데이터 분석 강의 내용을 학습 목적으로 재구성
- 사용 데이터: 공공 데이터 포털(data.go.kr) 전국 신규 민간 아파트 분양가격 동향, 소상공인 상권정보
- 본 자료는 실무 학습용 문서 스타일에 맞게 재편집한 요약본입니다