학습 개요
- 정형 데이터는 행과 열로 구성된 명확한 구조를 지닌 데이터 형태로서, 각 열은 고유한 속성을, 각 행은 개별 레코드를 나타냄
- 일반적으로 데이터베이스, 스프레드시트, CSV 파일 등의 형태로 존재하며, 구조화된 형태 덕분에 다양한 분석 기법을 적용하기에 용이하고, 결과의 해석 또한 직관적이라는 장점을 지님
- 이러한 특성은 정형 데이터를 기반으로 하는 분석이 전략적 의사 결정 과정에 큰 기여를 하도록 만듬
- 정형 데이터의 개념과 가치, 수집 및 처리 과정, 그리고 통계적 분석 기법의 적용 방식을 학습함
- 서울시 공공 자전거 서비스인 ‘따릉이’ 데이터를 활용하여, 실제 정형 데이터를 기반으로 한 분석 사례를 중심으로 학습이 진행됨
- Pandas 라이브러리를 통해 데이터를 집계, 정렬, 필터 기능을 전처리 과정에 적용하여 데이터 품질을 확보하고 외부 요인과의 연계 분석을 통해 데이터 간 상관 관계를 정량적으로 파악하는 방법을 익힘
학습 목표
- 분석 대상인 서울시 공공 자전거 데이터를 수집할 수 있음
- 수집 데이터를 Pandas를 활용하여 적합한 형태로 전처리할 수 있음
- 데이터 시각화를 통해 분석 결과를 효과적으로 표현할 수 있음
- 외부 데이터를 연계하여 자전거 이용량과의 상관 관계를 분석할 수 있음
강의록
정형 데이터 분석
정형 데이터의 특성과 분석 가치
- 행과 열로 구성된 명확한 구조
- 각 열은 특정 속성을 의미하고 각 행은 개별 레코드를 표현
- 데이터베이스, 스프레드시트, CSV 파일 등의 형태로 존재
- 분석 결과의 신뢰성과 높은 해석 용이성
- 구조화 된 형태
- 집계, 필터링, 정렬 등의 기본적인 데이터 처리 작업부터 고급 통계 분석까지 다양한 분석 기법 적용 가능
- 다양한 데이터를 통합하여 객관적인 의사 결정을 지원
- 고객 행동, 운영 효율성, 시장 트렌드 등에 대한 인사이트 제공을 통해 전략적 의사 결정의 기반
서울시 공공 자전거 ‘따릉이’
- 서비스 개요
- 2010년 440대로 시작하여 2024년 현재 4만 5,000 대 규모로 성장한 서울의 대표적인 친환경 교통 수단
- 2010년 캐나다의 ‘빅시(BIXI)’ 시스템을 벤치 마킹하여 시범 운영을 시작
- 운영 현황
- 현재 서울 전역 2,700여 개의 대여소를 통해 운영
- 누적 이용 건수는 1억 9,000만 건
- 스마트폰 애플리케이션을 통해 간편하게 이용할 수 있으며, 대여 및 반납 시 시스템에 자동으로 이용 정보 기록
데이터 수집
- 수집 대상 데이터
- 서울 열린데이터광장(data.seoul.go.kr)
- 서울특별시에서 운영하는 공공데이터 포털
- 서울시의 교통, 환경, 복지, 안전, 인구 등 다양한 분야의 데이터를 표 형태 또는 API 형식으로 제공
- CSV, JSON, XML 등 다양한 형식으로 다운로드 가능
- 따릉이의 2023년 4월 1일부터 30일까지의 일별 데이터를 활용
- 대여 일시, 대여 및 반납 대여소 정보, 이용 시간, 이동 거리 등의 정보를 포함한 데이터를 사용
- 시간대별, 요일별 이용 패턴을 파악하고, 외부 요인이 이용량에 미치는 영향 분석
- 서울 열린데이터광장(data.seoul.go.kr)
시계열 데이터 분석
- 시계열 데이터
- 시간의 순서에 따라 관측된 데이터의 연속
- 일정한 시간 간격으로 수집 되며, 각 관측 값은 시간적 순서를 가지고 있어 이전 관측 값들과 의존 관계를 형성
- 특정 현상이 시간에 따라 어떻게 변화하는 지를 보여주며, 과거의 패턴을 분석하여 미래를 예측하는 데 활용
- 시계열 패턴 분석
- 시간의 흐름에 따른 데이터의 변화를 관찰하고, 주기성이나 트렌드와 같은 시간적 특성을 파악하는 과정
데이터 연계
merge메소드- SQL의 join과 유사한 방식으로 두 DataFrame을 결합하는 기능
- 공통된 키(key) 값을 기준으로 두 데이터 셋의 정보를 하나로 통합하는 과정
- ex)
자전거 이용량 데이터(daily_usage_df)와 강수량 데이터(rain_df)를 left join 방식으로 결합
class="highlight">