공공 데이터 분석

Python과 Jupyter Notebook을 활용해 공공 데이터를 불러오고, 정리하고, 시각화하고, 자동으로 탐색하는 흐름을 단계별로 정리한 실습형 학습 자료

이 카테고리는 머신러닝 모델링보다도, 실제 CSV 데이터를 손에 잡히는 형태로 읽고 가공하고 시각화하는 데 초점을 둡니다. 공공 데이터 포털 자료를 예시로 사용하지만, 회사 내부 CSV나 로그성 데이터에도 그대로 응용할 수 있는 작업 흐름을 다룹니다.

학습 대상

Python 기초 문법은 알지만 데이터 분석은 처음인 분
공공 데이터 포털의 CSV 파일을 활용해 보고 싶은 분
Pandas와 Seaborn으로 실무 데이터를 다뤄 보고 싶은 분
Folium을 활용한 지리 시각화에 관심 있는 분
EDA(탐색적 데이터 분석) 자동화 도구를 배우고 싶은 분

학습 목표

Jupyter Notebook 환경에서 데이터 분석 워크플로우를 구성할 수 있다
Pandas로 CSV 데이터를 로드, 전처리, 변환, 병합할 수 있다
Matplotlib과 Seaborn으로 범주형/수치형 데이터를 시각화할 수 있다
Folium으로 지리 데이터를 지도 위에 표현할 수 있다
missingno와 ydata-profiling으로 EDA를 자동화할 수 있다

선행 조건

Python 기초 문법 (변수, 함수, 리스트, 딕셔너리)
터미널 기본 사용법
Anaconda 또는 pip 패키지 관리 경험이 있으면 좋음

이 카테고리에서 익히는 흐름

노트북 환경을 준비하고 데이터를 빠르게 확인하는 방법
Pandas로 결측치, 타입, 문자열, 집계를 다루는 방법
Matplotlib, Seaborn, Folium으로 수치형/범주형/지리 데이터를 표현하는 방법
missingno, ydata-profiling으로 EDA를 빠르게 시작하는 방법

학습 로드맵

핵심 키워드 맵

현재 공개된 문서

챕터	제목	핵심 내용	상태
01	주피터 노트북 사용법	Jupyter Notebook/Lab, Anaconda, pip/venv, 셀 조작, 단축키	공개
02	판다스 기초	read_csv, info, describe, head/tail, shape, 인코딩	공개
03	데이터 전처리	결측치 처리, 타입변환, 문자열 정제, 컬럼 제거	공개
04	데이터 변환과 병합	melt, pivot, concat, groupby, pivot_table	공개
05	Matplotlib 기본 시각화	plot, bar, hist, figure/axes 커스터마이징	공개
06	Seaborn 범주형 시각화	countplot, boxplot, violinplot, catplot, swarmplot	공개
07	Seaborn 수치형 시각화	histplot/displot, kdeplot, regplot, heatmap, 상관분석	공개
08	Folium 지리 시각화	Map, Marker, CircleMarker, MarkerCluster, Choropleth	공개
09	EDA 자동화	missingno, ydata-profiling, 결측치 시각화	공개

학습 팁

각 장의 Mermaid 다이어그램으로 전체 흐름을 먼저 파악한다
가능하면 Jupyter Notebook에서 직접 코드를 실행하며 학습한다
공공 데이터 포털(data.go.kr)에서 관심 있는 데이터를 다운로드하여 실습한다
전처리와 시각화는 반복 연습이 가장 중요하다
하나의 데이터셋으로 여러 시각화를 시도하며 각 그래프의 장단점을 비교한다

출처

원본 자료: 공공 데이터 분석 강의 내용을 학습 목적으로 재구성
사용 데이터: 공공 데이터 포털(data.go.kr) 전국 신규 민간 아파트 분양가격 동향, 소상공인 상권정보
본 자료는 실무 학습용 문서 스타일에 맞게 재편집한 요약본입니다