Home [오픈 소스 기반 데이터 분석] 9강 - 데이터 분석
Post
Cancel

[오픈 소스 기반 데이터 분석] 9강 - 데이터 분석

💡해당 게시글은 방송통신대학교 정재화 교수님의 '오픈 소스 기반 데이터 분석' 강의를 개인 공부 목적으로 메모하였습니다.



학습 개요


  • 데이터 분석 결과는 적절한 분석 방법론을 선택하고 적용하는 데 많은 영향을 받음
  • 데이터의 특성과 분석 목적에 따라 통계적 기법, 기계 학습, 딥러닝 등 다양한 방법론이 활용되며, 각각은 분석 대상에 따라 장단점과 적용 가능성이 달라짐
  • 이에 따라 분석가는 여러 방법론의 개념과 작동 원리를 이해하고, 데이터에 대한 통찰을 도출하기 위한 최적의 분석 전략을 설계할 수 있어야 함
  • 통계 기반 분석, 기계 학습 기반 분석, 그리고 딥러닝 기반 분석이라는 세 가지 주요 방법론의 개념과 차이를 학습함
  • 기계 통계와 추론 통계를 중심으로 데이터를 수치적으로 해석하고, 상관 관계 분석, 회귀 분석, 분산 분석 등을 통해 데이터 간의 구조적 관계를 밝히는 기법에 대해 살펴봄
  • 분류, 회귀, 군집화 등의 알고리즘을 통해 데이터로부터 예측 가능한 패턴을 학습하며, 마지막으로 신경망 모델을 활용하여 이미지, 텍스트, 시계열 등 복잡한 비정형 데이터의 고차원적 특성을 학습하고, 고성능 분석 모델을 구축하는 기법에 대해 살펴봄



학습 목표


  • 통계 분석, 기계 학습, 딥러닝을 활용한 데이터 분석 방법을 비교할 수 있음
  • 다양한 데이터 유형(정형, 비정형, 시계열 등)에 적합한 분석 기법을 선택할 수 있음
  • 시계열 데이터의 특성에 대한 이해를 바탕으로 시계열 데이터를 분석할 수 있음



강의록


통계적 분석 방법론

통계적 분석의 기초

  • 데이터에서 패턴과 관계를 발견하고 이를 수학적으로 모델링하는 접근 방식
    • 기술 통계
      • 데이터의 주요 특성을 요약하고 설명
    • 추론 통계
      • 모집단에 대한 일반화된 결론을 도출
  • statsmodels 라이브러리
    • 통계 모델링과 검정을 위한 오픈소스 파이썬 라이브러리
    • 상관 관계 분석, 회귀 분석, 시계열 분석, 가설 검정, 분산 분석 등을 지원

상관 관계 분석

  • 진단적 분석 단계에서 주로 사용되는 기법
  • 두 변수 간의 관계를 수치적으로 평가하여, 어떤 요소가 특정 결과에 영향을 미치는 지를 파악

    image.png

회귀 분석

  • 독립 변수와 종속 변수 간의 관계를 모델하여 새로운 데이터가 주어졌을 때 그 결과를 예측

    image.png

가설 검정

  • 설정한 가설이 통계적으로 유의미한 지를 확인하는 과정
  • 가설 검정 과정
    • 가설 설정
      • 귀무 가설(Ho)과 대립 가설(H₁) 정의
    • 통계량 계산
      • 검정 통계량(t, F, z 등)을 계산
    • p값 도출
      • Ho이 참일 때 관찰된 결과가 나올 확률을 계산
    • 결론 도출
      • p값이 유의 수준(0.05)보다 작으면 Ho을 기각

    image.png

분산 분석(ANOVA, Analysis of Variance)

  • 세 개 이상의 그룹 간 평균 차이를 한 번에 검정하는 통계적 방법
    • 여러 그룹을 비교할 때 두 그룹씩 t-검정으로 반복 비교하면 제1종 오류가 발생하는 문제를 해결
  • 분산 분석 과정
    • 문제 정의
    • F-통계량 계산: 그룹 간 차이와 그룹 내 차이 비교
      • $F = \frac{\text{집단 간 분산}}{\text{집단 내 분산}}$
    • p값 도출: F-분포를 이용한 유의성 평가
    • 결론 도출: $p<0.05$ 면 그룹 간 차이 존재 판단

기계 학습 기반 분석 방법론

분류 알고리즘

  • 데이터를 미리 정의된 범주(클래스)로 구분하는 작업

    알고리즘설명장점단점
    로지스틱 회귀시그모이드 함수를 사용해 확률로 이진 분류 수행간단하고 해석이 쉬움복잡한 비선형 관계는 표현 어려움
    결정 트리질문을 통해 데이터를 분할하여 분류해석 용이, 비선형 관계 모델링 가능과적합 위험
    랜덤 포레스트여러 결정 트리를 앙상블하여 예측일반화 성능 우수, 과적합 감소트 리수가 많아지면 학습/예측 느릴 수 있음
    SVM최적의 결정 경계를 찾아 분류 수행고차원 데이터에서도 효과적커널 선택과 파라미터 조정이 중요
    k-NN주변 k개의 데이터를 참고해 분류직관적이고 구현 간단계산 비용 높고 고차원에서 성능 저하 가능

회귀 알고리즘

  • 주어진 특성을 바탕으로 연속적인 값을 예측하는 작업

    알고리즘개요특징 및 장점한계점
    선형 회귀특성과 목표 변수 간의 선형 관계를 모델링간단하고 해석 용이비선형 관계를 표현 못함
    릿지 회귀선형 회귀 + L2 정규화과적합 방지, 모델 일반화 성능 향상모든 특성이 유지됨
    라쏘 회귀선형 회귀 + L1 정규화불필요한 특성 제거, 자동 특성 선택 수행중요한 특성도 제거될 수 있음
    결정 트리 회귀결정 트리를 이용해 값 예측비선형 패턴 포착 가능과적합 우려
    랜덤 포레스트 회귀여러 트리의 예측을 평균하여 최종 결과 산출안정적, 단일 트리보다 정확도 높음해석이 어려울 수 있음

비지도 학습 기법

  • 레이블이 없는 데이터에서 패턴/구조를 발견하는 방법

    기법개요대표 알고리즘활용 분야
    군집화유사한 데이터 포인트를 그룹으로 묶는 비지도 학습 방법K-평균, 계층적 군집화, DBSCAN고객 세분화, 이미지 분류 등
    차원 축소데이터의 차원을 줄이면서 정보 손실 최소화PCA, t-SNE, UMAP시각화, 노이즈 제거, 전처리 등
    이상치 탐지정상 패턴에서 벗어난 데이터를 탐지Isolation Forest, DBSCAN고장 감지, 사기 탐지 등
    연관 규칙 학습데이터 항목 간 빈번한 패턴과 관계 규칙을 발견Apriori, FP-Growth 등장바구니 분석, 추천 시스템 등

딥러닝 기반 분석 방법론

딥러닝의 이해

  • 딥러닝은 인공 신경망의 여러 층을 통해 데이터를 분석하고 복잡한 패턴을 학습하는 기계 학습의 한 분야

    image.png

  • 다층 구조의 인공 신경 망

    • 각 층은 전 층의 출력을 입력으로 받아 추상적인 특징 추출
    • 계층적 표현 학습을 통해 복잡한 패턴 학습
    • 저수준의 특징부터 고수준의 특징까지 자동으로 학습 가능

텐서플로우와 케라스

  • 텐서플로우 기본 개념
    • 구글이 개발한 오픈소스 기계 학습 프레임워크
    • 대규모 신경 망을 구축하고 학습할 수 있는 도구를 제공
  • 케라스의 역할
    • 텐서플로우 위에 구축된 고수준 API
    • 복잡한 딥러닝 모델을 간단하고 직관적으로 구성
  • 주요 기능
    • 모델 구성 함수
      • Sequential(), Dense(), Conv2D(), LSTM()
    • 모델 학습 및 평가 함수
      • compile(), fit(), evaluate(), predict() 제공

CNN을 이용한 이미지 데이터 분석

  • CNN은 이미지 처리에 특화된 딥러닝 모델

    image.png

생성형 언어 모델(LLM)의 이해

  • 트랜스포머 아키텍처
    • 2017년 구글에서 발표한 “Attention is All You Need” 논문에서 소개된 구조
    • 자기 주의(self-attention) 메커니즘을 통해 텍스트의 장거리 의존성을 효과적으로 포착하는 특성
  • 학습 방식
    • 제로샷 학습
      • 특정 작업 예시 없이 맥락만으로 응답 생성
    • 퓨샷 학습
      • 소수의 예시로 원하는 출력 형식이나 분석 방향 안내
    • 파인 튜닝
      • 특정 도메인이나 작업에 맞게 모델 추가 학습



연습 문제


  1. 다음 중 추론 통계 기법에 해당하는 것은?

    a. 회귀 분석

  2. 가설 검정에서 귀무가설(H₀)에 해당하는 설명은?

    a. 차이가 없다는 기본 가정이다

  3. 다음 중 CNN(합성곱 신경망)의 주 용도는 무엇인가?

    a. 이미지 데이터 분석



정리 하기


  • 상관 관계 분석은 두 변수 간의 관계 강도를 측정하는 기법임
  • 회귀 분석은 독립 변수가 종속 변수에 미치는 영향을 정량화함
  • 가설 검정은 데이터를 바탕으로 통계적 추론을 통해 주장의 타당성을 평가함
  • 분류 알고리즘은 데이터를 미리 정의된 범주로 구분함
  • 회귀 알고리즘은 연속적인 값을 예측하며 다양한 분야에서 활용 됨
  • 비지도 학습(군집화, 차원 축소 등)은 레이블 없는 데이터에서 패턴이나 구조를 발견함
  • 딥 러닝은 인공 신경 망의 여러 층을 통해 복잡한 패턴을 학습하는 기법임
  • CNN은 이미지 처리에, RNN, LSTM과 GRU는 시퀀스 데이터 처리에 특화되어 있음
  • LLM은 자연어 입력에 대해 자연어 출력을 생성하며 데이터 분석 과정을 혁신적으로 변화 시키고 있음
Contents

[클라우드 컴퓨팅] 8강 - 연습 문제 풀이

[클라우드 컴퓨팅] 9강 - 클라우드 컴퓨팅 기술