Home [오픈 소스 기반 데이터 분석] 12강 - 정형 데이터 분석
Post
Cancel

[오픈 소스 기반 데이터 분석] 12강 - 정형 데이터 분석

💡해당 게시글은 방송통신대학교 정재화 교수님의 '오픈 소스 기반 데이터 분석' 강의를 개인 공부 목적으로 메모하였습니다.



학습 개요


  • 정형 데이터는 행과 열로 구성된 명확한 구조를 지닌 데이터 형태로서, 각 열은 고유한 속성을, 각 행은 개별 레코드를 나타냄
  • 일반적으로 데이터베이스, 스프레드시트, CSV 파일 등의 형태로 존재하며, 구조화된 형태 덕분에 다양한 분석 기법을 적용하기에 용이하고, 결과의 해석 또한 직관적이라는 장점을 지님
  • 이러한 특성은 정형 데이터를 기반으로 하는 분석이 전략적 의사 결정 과정에 큰 기여를 하도록 만듬
  • 정형 데이터의 개념과 가치, 수집 및 처리 과정, 그리고 통계적 분석 기법의 적용 방식을 학습함
  • 서울시 공공 자전거 서비스인 ‘따릉이’ 데이터를 활용하여, 실제 정형 데이터를 기반으로 한 분석 사례를 중심으로 학습이 진행됨
  • Pandas 라이브러리를 통해 데이터를 집계, 정렬, 필터 기능을 전처리 과정에 적용하여 데이터 품질을 확보하고 외부 요인과의 연계 분석을 통해 데이터 간 상관 관계를 정량적으로 파악하는 방법을 익힘



학습 목표


  • 분석 대상인 서울시 공공 자전거 데이터를 수집할 수 있음
  • 수집 데이터를 Pandas를 활용하여 적합한 형태로 전처리할 수 있음
  • 데이터 시각화를 통해 분석 결과를 효과적으로 표현할 수 있음
  • 외부 데이터를 연계하여 자전거 이용량과의 상관 관계를 분석할 수 있음



강의록


정형 데이터 분석

정형 데이터의 특성과 분석 가치

  • 행과 열로 구성된 명확한 구조
    • 각 열은 특정 속성을 의미하고 각 행은 개별 레코드를 표현
    • 데이터베이스, 스프레드시트, CSV 파일 등의 형태로 존재
  • 분석 결과의 신뢰성과 높은 해석 용이성
    • 구조화 된 형태
    • 집계, 필터링, 정렬 등의 기본적인 데이터 처리 작업부터 고급 통계 분석까지 다양한 분석 기법 적용 가능
  • 다양한 데이터를 통합하여 객관적인 의사 결정을 지원
    • 고객 행동, 운영 효율성, 시장 트렌드 등에 대한 인사이트 제공을 통해 전략적 의사 결정의 기반

서울시 공공 자전거 ‘따릉이’

  • 서비스 개요
    • 2010년 440대로 시작하여 2024년 현재 4만 5,000 대 규모로 성장한 서울의 대표적인 친환경 교통 수단
    • 2010년 캐나다의 ‘빅시(BIXI)’ 시스템을 벤치 마킹하여 시범 운영을 시작
  • 운영 현황
    • 현재 서울 전역 2,700여 개의 대여소를 통해 운영
    • 누적 이용 건수는 1억 9,000만 건
    • 스마트폰 애플리케이션을 통해 간편하게 이용할 수 있으며, 대여 및 반납 시 시스템에 자동으로 이용 정보 기록

데이터 수집

  • 수집 대상 데이터
    • 서울 열린데이터광장(data.seoul.go.kr)
      • 서울특별시에서 운영하는 공공데이터 포털
      • 서울시의 교통, 환경, 복지, 안전, 인구 등 다양한 분야의 데이터를 표 형태 또는 API 형식으로 제공
      • CSV, JSON, XML 등 다양한 형식으로 다운로드 가능
    • 따릉이의 2023년 4월 1일부터 30일까지의 일별 데이터를 활용
      • 대여 일시, 대여 및 반납 대여소 정보, 이용 시간, 이동 거리 등의 정보를 포함한 데이터를 사용
      • 시간대별, 요일별 이용 패턴을 파악하고, 외부 요인이 이용량에 미치는 영향 분석

시계열 데이터 분석

  • 시계열 데이터
    • 시간의 순서에 따라 관측된 데이터의 연속
    • 일정한 시간 간격으로 수집 되며, 각 관측 값은 시간적 순서를 가지고 있어 이전 관측 값들과 의존 관계를 형성
    • 특정 현상이 시간에 따라 어떻게 변화하는 지를 보여주며, 과거의 패턴을 분석하여 미래를 예측하는 데 활용
  • 시계열 패턴 분석
    • 시간의 흐름에 따른 데이터의 변화를 관찰하고, 주기성이나 트렌드와 같은 시간적 특성을 파악하는 과정

데이터 연계

  • merge 메소드
    • SQL의 join과 유사한 방식으로 두 DataFrame을 결합하는 기능
    • 공통된 키(key) 값을 기준으로 두 데이터 셋의 정보를 하나로 통합하는 과정
    • ex)
      • 자전거 이용량 데이터(daily_usage_df)와 강수량 데이터(rain_df)를 left join 방식으로 결합

        class="highlight">
        1
        
          merged_df = pd.merge(daily_usage_df, rain_df, how='left' left_on='기준_날짜', right_on='일시')
        

        상관 관계 분석의 이해

        • 피어슨 상관 계수(Pearson Correlation Coefficient)
          • 두 연속형 변수 간의 선형 관계를 측정하는 통계적 지표
          • Pandas의 corr() 메소드 사용
          • 피이슨 상관 계수 $r$은 -1에서 1사이의 값으로 표현
            • 1에 가까울수록 강한 양의 상관 관계
            • -1에 가까울수록 강한 음의 상관 관계
            • 0에 가까울수록 선형적 관계가 약함
          • $r=\frac{\sum(x-\mu_{x})(y-\mu_{y})}{(\sigma_{x}\times\sigma_{y})}$

        실습 프로젝트

        • 서울시 ‘서울 열린데이터광장’과 기상청의 ‘기상자료개방 포탈’의 데이터 분석
        • 날씨와 자전거 이용량의 상관 관계를 분석

          | 단계 | 주요 내용 | | — | — | | 1. 데이터 수집 및 전처리 | - CSV 형태의 데이터 수집

          • 기초 통계량 산출
          • 결측치 처리 및 이상치 제거
          • 날짜/시간 데이터 형식 변환  
             2. 데이터 분석- 시계열 패턴 분석
             3. 연계 분석- 강수량 데이터와의 연계 분석
          • 상관 관계 분석



        연습 문제


        1. 정형 데이터의 특징으로 옳지 않은 것은?

          a. 텍스트 중심의 자유로운 데이터 형식을 가진다

          • 정형 데이터의 특징
            • 행과 열의 명확한 구조를 가짐
            • CSV나 관계형 데이터베이스 형태로 저장 됨
            • 속성별 분석이 용이함
        2. 다음 중 결측치 처리를 위해 일반적으로 사용하는 방법이 아닌 것은?

          a. 무작위 난수 삽입

          • 결측치 처리를 위해 일반적으로 사용하는 방법
            • 평균 값 대체
            • 중앙 값 대체
            • 결측치 제거
        3. 다음 중 이상치 제거의 주된 목적은 무엇인가?

          a. 분석 결과 왜곡 방지



        정리 하기


        • 정형 데이터는 테이블 형태로 구조화되어 있어 통계적 분석이 용이함
        • 서울 열린 데이터 광장은 서울시의 교통, 환경, 복지, 안전, 인구 등 다양한 분야의 데이터를 표 형태 또는 API 형식으로 제공함
        • 데이터 전처리에서는 결측치 처리, 이상치 제거, 날짜/시간 형식 변환 등을 수행함
        • 요일별, 시간대별, 일자별 이용량 패턴을 분석함
        • matplotlib, seaborn을 활용하여 분석 결과를 시각화함
        • 원인이 파악되지 않는 데이터 분석 결과에 대해서는 급격한 변동 원인을 파악하기 위해 새로운 연관 데이터를 분석하여 해결할 수 있음
        • merge 함수를 활용하여 두 데이터 셋을 결합함
        Contents

        [클라우드 컴퓨팅] 11강 - 클라우드 아키텍처

        [클라우드 컴퓨팅] 12강 - 클라우드 컴퓨팅의 미래