Skip to content

공공 데이터 분석

Python과 Jupyter Notebook을 활용해 공공 데이터를 불러오고, 정리하고, 시각화하고, 자동으로 탐색하는 흐름을 단계별로 정리한 실습형 학습 자료

이 카테고리는 머신러닝 모델링보다도, 실제 CSV 데이터를 손에 잡히는 형태로 읽고 가공하고 시각화하는 데 초점을 둡니다. 공공 데이터 포털 자료를 예시로 사용하지만, 회사 내부 CSV나 로그성 데이터에도 그대로 응용할 수 있는 작업 흐름을 다룹니다.

학습 대상

  • Python 기초 문법은 알지만 데이터 분석은 처음인 분
  • 공공 데이터 포털의 CSV 파일을 활용해 보고 싶은 분
  • Pandas와 Seaborn으로 실무 데이터를 다뤄 보고 싶은 분
  • Folium을 활용한 지리 시각화에 관심 있는 분
  • EDA(탐색적 데이터 분석) 자동화 도구를 배우고 싶은 분

학습 목표

  • Jupyter Notebook 환경에서 데이터 분석 워크플로우를 구성할 수 있다
  • Pandas로 CSV 데이터를 로드, 전처리, 변환, 병합할 수 있다
  • Matplotlib과 Seaborn으로 범주형/수치형 데이터를 시각화할 수 있다
  • Folium으로 지리 데이터를 지도 위에 표현할 수 있다
  • missingno와 ydata-profiling으로 EDA를 자동화할 수 있다

선행 조건

  • Python 기초 문법 (변수, 함수, 리스트, 딕셔너리)
  • 터미널 기본 사용법
  • Anaconda 또는 pip 패키지 관리 경험이 있으면 좋음

이 카테고리에서 익히는 흐름

  • 노트북 환경을 준비하고 데이터를 빠르게 확인하는 방법
  • Pandas로 결측치, 타입, 문자열, 집계를 다루는 방법
  • Matplotlib, Seaborn, Folium으로 수치형/범주형/지리 데이터를 표현하는 방법
  • missingno, ydata-profiling으로 EDA를 빠르게 시작하는 방법

학습 로드맵

핵심 키워드 맵

현재 공개된 문서

챕터제목핵심 내용상태
01주피터 노트북 사용법Jupyter Notebook/Lab, Anaconda, pip/venv, 셀 조작, 단축키공개
02판다스 기초read_csv, info, describe, head/tail, shape, 인코딩공개
03데이터 전처리결측치 처리, 타입변환, 문자열 정제, 컬럼 제거공개
04데이터 변환과 병합melt, pivot, concat, groupby, pivot_table공개
05Matplotlib 기본 시각화plot, bar, hist, figure/axes 커스터마이징공개
06Seaborn 범주형 시각화countplot, boxplot, violinplot, catplot, swarmplot공개
07Seaborn 수치형 시각화histplot/displot, kdeplot, regplot, heatmap, 상관분석공개
08Folium 지리 시각화Map, Marker, CircleMarker, MarkerCluster, Choropleth공개
09EDA 자동화missingno, ydata-profiling, 결측치 시각화공개

학습 팁

  • 각 장의 Mermaid 다이어그램으로 전체 흐름을 먼저 파악한다
  • 가능하면 Jupyter Notebook에서 직접 코드를 실행하며 학습한다
  • 공공 데이터 포털(data.go.kr)에서 관심 있는 데이터를 다운로드하여 실습한다
  • 전처리와 시각화는 반복 연습이 가장 중요하다
  • 하나의 데이터셋으로 여러 시각화를 시도하며 각 그래프의 장단점을 비교한다

출처

  • 원본 자료: 공공 데이터 분석 강의 내용을 학습 목적으로 재구성
  • 사용 데이터: 공공 데이터 포털(data.go.kr) 전국 신규 민간 아파트 분양가격 동향, 소상공인 상권정보
  • 본 자료는 실무 학습용 문서 스타일에 맞게 재편집한 요약본입니다