💡해당 게시글은 방송통신대학교 정재화 교수님의 '오픈 소스 기반 데이터 분석' 강의를 개인 공부 목적으로 메모하였습니다.

학습 개요

데이터 분석 결과는 적절한 분석 방법론을 선택하고 적용하는 데 많은 영향을 받음
데이터의 특성과 분석 목적에 따라 통계적 기법, 기계 학습, 딥러닝 등 다양한 방법론이 활용되며, 각각은 분석 대상에 따라 장단점과 적용 가능성이 달라짐
이에 따라 분석가는 여러 방법론의 개념과 작동 원리를 이해하고, 데이터에 대한 통찰을 도출하기 위한 최적의 분석 전략을 설계할 수 있어야 함
통계 기반 분석, 기계 학습 기반 분석, 그리고 딥러닝 기반 분석이라는 세 가지 주요 방법론의 개념과 차이를 학습함
기계 통계와 추론 통계를 중심으로 데이터를 수치적으로 해석하고, 상관 관계 분석, 회귀 분석, 분산 분석 등을 통해 데이터 간의 구조적 관계를 밝히는 기법에 대해 살펴봄
분류, 회귀, 군집화 등의 알고리즘을 통해 데이터로부터 예측 가능한 패턴을 학습하며, 마지막으로 신경망 모델을 활용하여 이미지, 텍스트, 시계열 등 복잡한 비정형 데이터의 고차원적 특성을 학습하고, 고성능 분석 모델을 구축하는 기법에 대해 살펴봄

학습 목표

통계 분석, 기계 학습, 딥러닝을 활용한 데이터 분석 방법을 비교할 수 있음
다양한 데이터 유형(정형, 비정형, 시계열 등)에 적합한 분석 기법을 선택할 수 있음
시계열 데이터의 특성에 대한 이해를 바탕으로 시계열 데이터를 분석할 수 있음

강의록

통계적 분석 방법론

통계적 분석의 기초

데이터에서 패턴과 관계를 발견하고 이를 수학적으로 모델링하는 접근 방식
- 기술 통계
  - 데이터의 주요 특성을 요약하고 설명
- 추론 통계
  - 모집단에 대한 일반화된 결론을 도출
statsmodels 라이브러리
- 통계 모델링과 검정을 위한 오픈소스 파이썬 라이브러리
- 상관 관계 분석, 회귀 분석, 시계열 분석, 가설 검정, 분산 분석 등을 지원

상관 관계 분석

진단적 분석 단계에서 주로 사용되는 기법
두 변수 간의 관계를 수치적으로 평가하여, 어떤 요소가 특정 결과에 영향을 미치는 지를 파악

회귀 분석

독립 변수와 종속 변수 간의 관계를 모델하여 새로운 데이터가 주어졌을 때 그 결과를 예측

가설 검정

설정한 가설이 통계적으로 유의미한 지를 확인하는 과정
가설 검정 과정
- 가설 설정
  - 귀무 가설(Ho)과 대립 가설(H₁) 정의
- 통계량 계산
  - 검정 통계량(t, F, z 등)을 계산
- p값 도출
  - Ho이 참일 때 관찰된 결과가 나올 확률을 계산
- 결론 도출
  - p값이 유의 수준(0.05)보다 작으면 Ho을 기각

분산 분석(ANOVA, Analysis of Variance)

세 개 이상의 그룹 간 평균 차이를 한 번에 검정하는 통계적 방법
- 여러 그룹을 비교할 때 두 그룹씩 t-검정으로 반복 비교하면 제1종 오류가 발생하는 문제를 해결
분산 분석 과정
- 문제 정의
- F-통계량 계산: 그룹 간 차이와 그룹 내 차이 비교
  - $F = \frac{\text{집단 간 분산}}{\text{집단 내 분산}}$
- p값 도출: F-분포를 이용한 유의성 평가
- 결론 도출: $p<0.05$ 면 그룹 간 차이 존재 판단

기계 학습 기반 분석 방법론

분류 알고리즘

데이터를 미리 정의된 범주(클래스)로 구분하는 작업

알고리즘	설명	장점	단점
로지스틱 회귀	시그모이드 함수를 사용해 확률로 이진 분류 수행	간단하고 해석이 쉬움	복잡한 비선형 관계는 표현 어려움
결정 트리	질문을 통해 데이터를 분할하여 분류	해석 용이, 비선형 관계 모델링 가능	과적합 위험
랜덤 포레스트	여러 결정 트리를 앙상블하여 예측	일반화 성능 우수, 과적합 감소	트 리수가 많아지면 학습/예측 느릴 수 있음
SVM	최적의 결정 경계를 찾아 분류 수행	고차원 데이터에서도 효과적	커널 선택과 파라미터 조정이 중요
k-NN	주변 k개의 데이터를 참고해 분류	직관적이고 구현 간단	계산 비용 높고 고차원에서 성능 저하 가능

회귀 알고리즘

주어진 특성을 바탕으로 연속적인 값을 예측하는 작업

알고리즘	개요	특징 및 장점	한계점
선형 회귀	특성과 목표 변수 간의 선형 관계를 모델링	간단하고 해석 용이	비선형 관계를 표현 못함
릿지 회귀	선형 회귀 + L2 정규화	과적합 방지, 모델 일반화 성능 향상	모든 특성이 유지됨
라쏘 회귀	선형 회귀 + L1 정규화	불필요한 특성 제거, 자동 특성 선택 수행	중요한 특성도 제거될 수 있음
결정 트리 회귀	결정 트리를 이용해 값 예측	비선형 패턴 포착 가능	과적합 우려
랜덤 포레스트 회귀	여러 트리의 예측을 평균하여 최종 결과 산출	안정적, 단일 트리보다 정확도 높음	해석이 어려울 수 있음

비지도 학습 기법

레이블이 없는 데이터에서 패턴/구조를 발견하는 방법

기법	개요	대표 알고리즘	활용 분야
군집화	유사한 데이터 포인트를 그룹으로 묶는 비지도 학습 방법	K-평균, 계층적 군집화, DBSCAN	고객 세분화, 이미지 분류 등
차원 축소	데이터의 차원을 줄이면서 정보 손실 최소화	PCA, t-SNE, UMAP	시각화, 노이즈 제거, 전처리 등
이상치 탐지	정상 패턴에서 벗어난 데이터를 탐지	Isolation Forest, DBSCAN	고장 감지, 사기 탐지 등
연관 규칙 학습	데이터 항목 간 빈번한 패턴과 관계 규칙을 발견	Apriori, FP-Growth 등	장바구니 분석, 추천 시스템 등

딥러닝 기반 분석 방법론

딥러닝의 이해

딥러닝은 인공 신경망의 여러 층을 통해 데이터를 분석하고 복잡한 패턴을 학습하는 기계 학습의 한 분야
다층 구조의 인공 신경 망
- 각 층은 전 층의 출력을 입력으로 받아 추상적인 특징 추출
- 계층적 표현 학습을 통해 복잡한 패턴 학습
- 저수준의 특징부터 고수준의 특징까지 자동으로 학습 가능

텐서플로우와 케라스

텐서플로우 기본 개념
- 구글이 개발한 오픈소스 기계 학습 프레임워크
- 대규모 신경 망을 구축하고 학습할 수 있는 도구를 제공
케라스의 역할
- 텐서플로우 위에 구축된 고수준 API
- 복잡한 딥러닝 모델을 간단하고 직관적으로 구성
주요 기능
- 모델 구성 함수
  - Sequential(), Dense(), Conv2D(), LSTM() 등
- 모델 학습 및 평가 함수
  - compile(), fit(), evaluate(), predict() 제공

CNN을 이용한 이미지 데이터 분석

CNN은 이미지 처리에 특화된 딥러닝 모델

생성형 언어 모델(LLM)의 이해

트랜스포머 아키텍처
- 2017년 구글에서 발표한 “Attention is All You Need” 논문에서 소개된 구조
- 자기 주의(self-attention) 메커니즘을 통해 텍스트의 장거리 의존성을 효과적으로 포착하는 특성
학습 방식
- 제로샷 학습
  - 특정 작업 예시 없이 맥락만으로 응답 생성
- 퓨샷 학습
  - 소수의 예시로 원하는 출력 형식이나 분석 방향 안내
- 파인 튜닝
  - 특정 도메인이나 작업에 맞게 모델 추가 학습

연습 문제

다음 중 추론 통계 기법에 해당하는 것은?

a. 회귀 분석
가설 검정에서 귀무가설(H₀)에 해당하는 설명은?

a. 차이가 없다는 기본 가정이다
다음 중 CNN(합성곱 신경망)의 주 용도는 무엇인가?

a. 이미지 데이터 분석

정리 하기

상관 관계 분석은 두 변수 간의 관계 강도를 측정하는 기법임
회귀 분석은 독립 변수가 종속 변수에 미치는 영향을 정량화함
가설 검정은 데이터를 바탕으로 통계적 추론을 통해 주장의 타당성을 평가함
분류 알고리즘은 데이터를 미리 정의된 범주로 구분함
회귀 알고리즘은 연속적인 값을 예측하며 다양한 분야에서 활용 됨
비지도 학습(군집화, 차원 축소 등)은 레이블 없는 데이터에서 패턴이나 구조를 발견함
딥 러닝은 인공 신경 망의 여러 층을 통해 복잡한 패턴을 학습하는 기법임
CNN은 이미지 처리에, RNN, LSTM과 GRU는 시퀀스 데이터 처리에 특화되어 있음
LLM은 자연어 입력에 대해 자연어 출력을 생성하며 데이터 분석 과정을 혁신적으로 변화 시키고 있음

[오픈 소스 기반 데이터 분석] 9강 - 데이터 분석

학습 개요

학습 목표

강의록

통계적 분석 방법론

통계적 분석의 기초

상관 관계 분석

회귀 분석

가설 검정

분산 분석(ANOVA, Analysis of Variance)

기계 학습 기반 분석 방법론

분류 알고리즘

회귀 알고리즘

비지도 학습 기법

딥러닝 기반 분석 방법론

딥러닝의 이해

텐서플로우와 케라스

CNN을 이용한 이미지 데이터 분석

생성형 언어 모델(LLM)의 이해

연습 문제

정리 하기

Further Reading

[오픈 소스 기반 데이터 분석] 1강 - 데이터 분석 개요

[오픈 소스 기반 데이터 분석] 2강 - 데이터 분석을 위한 파이썬 프로그래밍

[오픈 소스 기반 데이터 분석] 3강 - 데이터 분석을 위한 파이썬 프로그래밍