💡해당 게시글은 방송통신대학교 정재화 교수님의 '오픈 소스 기반 데이터 분석' 강의를 개인 공부 목적으로 메모하였습니다.

학습 개요

정형 데이터는 행과 열로 구성된 명확한 구조를 지닌 데이터 형태로서, 각 열은 고유한 속성을, 각 행은 개별 레코드를 나타냄
일반적으로 데이터베이스, 스프레드시트, CSV 파일 등의 형태로 존재하며, 구조화된 형태 덕분에 다양한 분석 기법을 적용하기에 용이하고, 결과의 해석 또한 직관적이라는 장점을 지님
이러한 특성은 정형 데이터를 기반으로 하는 분석이 전략적 의사 결정 과정에 큰 기여를 하도록 만듬
정형 데이터의 개념과 가치, 수집 및 처리 과정, 그리고 통계적 분석 기법의 적용 방식을 학습함
서울시 공공 자전거 서비스인 ‘따릉이’ 데이터를 활용하여, 실제 정형 데이터를 기반으로 한 분석 사례를 중심으로 학습이 진행됨
Pandas 라이브러리를 통해 데이터를 집계, 정렬, 필터 기능을 전처리 과정에 적용하여 데이터 품질을 확보하고 외부 요인과의 연계 분석을 통해 데이터 간 상관 관계를 정량적으로 파악하는 방법을 익힘

학습 목표

분석 대상인 서울시 공공 자전거 데이터를 수집할 수 있음
수집 데이터를 Pandas를 활용하여 적합한 형태로 전처리할 수 있음
데이터 시각화를 통해 분석 결과를 효과적으로 표현할 수 있음
외부 데이터를 연계하여 자전거 이용량과의 상관 관계를 분석할 수 있음

강의록

정형 데이터 분석

정형 데이터의 특성과 분석 가치

행과 열로 구성된 명확한 구조
- 각 열은 특정 속성을 의미하고 각 행은 개별 레코드를 표현
- 데이터베이스, 스프레드시트, CSV 파일 등의 형태로 존재
분석 결과의 신뢰성과 높은 해석 용이성
- 구조화 된 형태
- 집계, 필터링, 정렬 등의 기본적인 데이터 처리 작업부터 고급 통계 분석까지 다양한 분석 기법 적용 가능
다양한 데이터를 통합하여 객관적인 의사 결정을 지원
- 고객 행동, 운영 효율성, 시장 트렌드 등에 대한 인사이트 제공을 통해 전략적 의사 결정의 기반

서울시 공공 자전거 ‘따릉이’

서비스 개요
- 2010년 440대로 시작하여 2024년 현재 4만 5,000 대 규모로 성장한 서울의 대표적인 친환경 교통 수단
- 2010년 캐나다의 ‘빅시(BIXI)’ 시스템을 벤치 마킹하여 시범 운영을 시작
운영 현황
- 현재 서울 전역 2,700여 개의 대여소를 통해 운영
- 누적 이용 건수는 1억 9,000만 건
- 스마트폰 애플리케이션을 통해 간편하게 이용할 수 있으며, 대여 및 반납 시 시스템에 자동으로 이용 정보 기록

데이터 수집

수집 대상 데이터
- 서울 열린데이터광장(data.seoul.go.kr)
  - 서울특별시에서 운영하는 공공데이터 포털
  - 서울시의 교통, 환경, 복지, 안전, 인구 등 다양한 분야의 데이터를 표 형태 또는 API 형식으로 제공
  - CSV, JSON, XML 등 다양한 형식으로 다운로드 가능
- 따릉이의 2023년 4월 1일부터 30일까지의 일별 데이터를 활용
  - 대여 일시, 대여 및 반납 대여소 정보, 이용 시간, 이동 거리 등의 정보를 포함한 데이터를 사용
  - 시간대별, 요일별 이용 패턴을 파악하고, 외부 요인이 이용량에 미치는 영향 분석

시계열 데이터 분석

시계열 데이터
- 시간의 순서에 따라 관측된 데이터의 연속
- 일정한 시간 간격으로 수집 되며, 각 관측 값은 시간적 순서를 가지고 있어 이전 관측 값들과 의존 관계를 형성
- 특정 현상이 시간에 따라 어떻게 변화하는 지를 보여주며, 과거의 패턴을 분석하여 미래를 예측하는 데 활용
시계열 패턴 분석
- 시간의 흐름에 따른 데이터의 변화를 관찰하고, 주기성이나 트렌드와 같은 시간적 특성을 파악하는 과정

데이터 연계

merge 메소드

SQL의 join과 유사한 방식으로 두 DataFrame을 결합하는 기능
공통된 키(key) 값을 기준으로 두 데이터 셋의 정보를 하나로 통합하는 과정

ex)

자전거 이용량 데이터(daily_usage_df)와 강수량 데이터(rain_df)를 left join 방식으로 결합

  merged_df = pd.merge(daily_usage_df, rain_df, how='left' left_on='기준_날짜', right_on='일시')

상관 관계 분석의 이해

피어슨 상관 계수(Pearson Correlation Coefficient)
- 두 연속형 변수 간의 선형 관계를 측정하는 통계적 지표
- Pandas의 corr() 메소드 사용
- 피이슨 상관 계수 $r$은 -1에서 1사이의 값으로 표현
  - 1에 가까울수록 강한 양의 상관 관계
  - -1에 가까울수록 강한 음의 상관 관계
  - 0에 가까울수록 선형적 관계가 약함
- $r=\frac{\sum(x-\mu_{x})(y-\mu_{y})}{(\sigma_{x}\times\sigma_{y})}$

실습 프로젝트

서울시 ‘서울 열린데이터광장’과 기상청의 ‘기상자료개방 포탈’의 데이터 분석

날씨와 자전거 이용량의 상관 관계를 분석

| 단계 | 주요 내용 | | — | — | | 1. 데이터 수집 및 전처리 | - CSV 형태의 데이터 수집

기초 통계량 산출
결측치 처리 및 이상치 제거

날짜/시간 데이터 형식 변환
	2. 데이터 분석	- 시계열 패턴 분석
	3. 연계 분석	- 강수량 데이터와의 연계 분석

상관 관계 분석

연습 문제

정형 데이터의 특징으로 옳지 않은 것은?

a. 텍스트 중심의 자유로운 데이터 형식을 가진다
- 정형 데이터의 특징
  - 행과 열의 명확한 구조를 가짐
  - CSV나 관계형 데이터베이스 형태로 저장 됨
  - 속성별 분석이 용이함
다음 중 결측치 처리를 위해 일반적으로 사용하는 방법이 아닌 것은?

a. 무작위 난수 삽입
- 결측치 처리를 위해 일반적으로 사용하는 방법
  - 평균 값 대체
  - 중앙 값 대체
  - 결측치 제거
다음 중 이상치 제거의 주된 목적은 무엇인가?

a. 분석 결과 왜곡 방지

정리 하기

정형 데이터는 테이블 형태로 구조화되어 있어 통계적 분석이 용이함
서울 열린 데이터 광장은 서울시의 교통, 환경, 복지, 안전, 인구 등 다양한 분야의 데이터를 표 형태 또는 API 형식으로 제공함
데이터 전처리에서는 결측치 처리, 이상치 제거, 날짜/시간 형식 변환 등을 수행함
요일별, 시간대별, 일자별 이용량 패턴을 분석함
matplotlib, seaborn을 활용하여 분석 결과를 시각화함
원인이 파악되지 않는 데이터 분석 결과에 대해서는 급격한 변동 원인을 파악하기 위해 새로운 연관 데이터를 분석하여 해결할 수 있음
merge 함수를 활용하여 두 데이터 셋을 결합함

[오픈 소스 기반 데이터 분석] 12강 - 정형 데이터 분석