학습 개요
- 지식 정보화 사회에서 우리는 수많은 정보를 접하게 되는데, 특히 많은 부분이 데이터를 통한 정보라고 할 수 있음
- 우리가 살고 있는 현실을 파악하고, 현실을 이해하는 많은 과정이 데이터를 통해서 이루어짐
- 데이터 분석을 위해서는 데이터 분석에 대한 기본 개념과 방법론이 요구되며, 데이터 분석 소프트웨어의 활용이 필수적으로 요구됨
- 데이터 분석을 위한 기본 개념을 소개하고, 데이터 분석 소프트웨어들을 소개하고, 엑셀과 R을 이용한 데이터 분석 예를 소개함
학습 목표
- 지식 정보화 사회에서 컴퓨터의 활용에 대하여 이해할 수 있음
- 데이터 분석 절차를 설명할 수 있음
- 데이터 분석 소프트웨어들을 설명할 수 있음
- 엑셀과 R을 이용한 데이터 분석 예를 설명할 수 있음
강의록
데이터 정보와 컴퓨터
지식 정보화
- 정보화 사회
- 빅 데이터(Big Data), 딥러닝(Deep Learning), AI(Artificial Intelligence) 시대
- 정보가 중심이 되어 사회, 경제가 움직이는 사회
- 정보의 수집과 분석 및 정확한 파단 없이는 살아갈 수 없는 사회
- 정보가 급격하게 증대, 성장, 보급되는 사회
- 정보화 사회에서는 효율적인 정보의 수집, 수집된 정보의 가치 판단, 정보 활용 능력 등이 필수적으로 요구됨
- 이러한 의미에서 지금은 지식 정보화 사회라고함
- 지식 정보화 사회에서 데이터를 효율적으로 처리하고 분석하기 위해서는 컴퓨터의 활용 및 데이터 분석 능력이 필수적임
지식 정보화 사회에서 필수적인 요구 사항
- 컴퓨터의 활용 방법을 알고 있어야 함
- 인터넷을 효율적으로 활용할 수 있도록 함
- 정보를 제대로 이해하고, 문제를 파악하고 판단하기 위한 통계적인 (논리적인) 사고가 요구됨
- 데이터 분석에 대한 기본 개념과 방법론들을 숙지
- 데이터로부터 유용한 정보를 추출하고, 합리적인 의사 결정을 하기 위해서는 데이터 분석 소프트웨어를 잘 활용할 수 있도록 함
데이터 분석 개요
데이터 분석 절차
문제의 정의 → 조사, 실험의 계획 → 데이터의 수집 → 데이터의 정리, 분석 → 분석 결과의 평가
문제의 정의
- 일반적으로 연구의 시작은 대개 간단하고 모호한 질문으로부터 시작됨
- 이것을 자세하고 정확한 질문으로부터 구체화 시켜 연구의 목적으로 하는 것이 문제의 정의임
- 연구 대상이 되는 모집단이 어떠한 것이며, 무엇이 불확실한 상황이고, 어떠한 의사 결정들이 내려질 수 있는 지에 대한 자세한 검토가 이루어져야 함
조사 실험의 계획
- 연구의 목적이 명확하게 정의가 되면 달성할 수 있는 조사 또는 실험을 계획하여야 함
- 구체적으로 연구 대상이 되는 모집단을 모두 조사할 것인지 아니면 표본만을 조사할 것인지 결정
- 표본을 조사하려고 한다면 어떻게 표본을 선택할 것이며, 표본의 크기는 어느 정도로 하며, 각 표본에서는 무슨 자료를 얻을 것 인지를 결정해야 함
데이터의 수집
- 구체적인 조사, 실험이 계획되면 이에 따라 데이터를 수집
- 어느 경우에는 자료가 이미 수집 되어 있거나, 인터넷 또는 문헌에서 쉽게 구할 수도 있는데, 이때는 이 자료들이 과연 연구 목적에 적절하고 정확한 것인지 검토
- 직접 자료를 수집하는 일은 대개 시간과 경비가 많이 들고 또 오류도 많이 발생할 수 있는 매우 복잡하고 힘든 일임.
- 어느 경우에는 계획한 대로 자료를 수집하기가 불가능한 경우도 있고, 수집 된 자료가 연구 목적에 적절하지 않은 경우도 있음
- 이러한 문제점들을 줄이기 위해 예비 자료를 먼저 수집하여 자료 수집 계획을 수정 또는 보완하기도 함.
데이터의 정리 분석
- 적절한 데이터를 수집한 후에는 도표나 그림을 이용하여 자료를 정리
- 또한 주어진 문제의 해결에 적합한 분석 방법을 이용하여 자료를 분석
- 데이터 분석 시스템의 활용
- 엑셀, R, python, SAS, SPSS, Minitab 등
- 통계적 방법
- 기술 통계, 탐색적 자료 분석, 범주형 자료분석, 두 모집단 비교, 회귀 분석, 실험 계획, 다변량 분석 등
분석 결과의 평가
- 분석된 결과를 이용하여 연구 목적에서 제기 된 질문에 대한 결론을 내림
- 어느 경우에는 부분적인 답만 결론 내릴 수도 있고, 다른 경우에는 제기 되지 않았던 질문에 대한 결론도 얻을 수 있음
- 결론에 따른 여러 가지 새로운 연구에 대한 제안도 할 수 있음
데이터 분석 소프트웨어 소개
SPSS(www.spss.co.kr)
- GUI(Graphic User Interface) 환경 하에서 통계 분석 및 자료 처리가 이루어짐
- 분석 절차에 맞게 다양한 대화 상자가 제공되므로 쉽게 분석 처리가 가능
- 스프레드시트 형태의 데이터 입력으로 일반 사용자에게 친숙
- 메뉴 방식 및 프로그램 방식을 모두 이용하여 통계 분석 절차를 제공
- 메뉴 방식을 이용한 통계 그래픽스 기능이 뛰어남
SPSS 사용 - 기술 통계량을 구하는 예
데이터 입력 : SPSS를 실행하고 데이터를 입력한 초기 화면
분석 → 기술 통계량 → 기술 통계 선택
대화 상자에서 변수 선택
기술 통계 출력 결과
SAS(www.sas.com)
- 자료의 처리 기능이 뛰어남
- 데이터베이스, 데이터 웨어하우징(data warehousing) 등의 기능이 탁월
- 다양한 통계 분석 절차
- 데이터 마이닝 기능이 뛰어남
- 빅 데이터 솔루션 기능
- 프로그램 방식이 기본
SAS 모듈(module)
- SAS/BASE : SAS 기본
- SAS/STAT : 자료의 분석 및 통계 분석
- SAS/AF : 응용 프로그램 개발 지원
- SAS/ASSIST : 메뉴 형식의 SAS 시스템 지원
- SAS/ETS : 시계열 분석
- SAS/GRAPH : 그래프
- SAS/IML : 행렬 연산
- SAS/INSIGHT : 통계 분석 및 그래픽 구현
- SAS/OR : Operation Research
- SAS/QC : 통계적 품질 관리
- SAS/E-Miner : 데이터마이닝
SAS 사용 - 산점도 및 상관 계수
R(www.r-project.org)
- Free
- 기능이 매우 뛰어남
- 프로그램 처리 방식
- 자료 처리, 분석 및 그래픽스 분야에 탁월한 기능
R 다운 받기
www.r-project.org 의 CRAN 클릭 → Mirrors 사이트 선택(Korea) → Download for Windows → base → Download R
R 사용
1
2
3
4
5
6
math = c(66, 64, 48, 78, 60, 90, 50, 66, 70)
physics = c(70, 68, 46, 84, 64, 92, 52, 68, 72)
cor(math, physics)
plot(math, physics, pch=16, col="BLUE", main="(수학, 물리) 산점도")
abline(lm(physics~math))
identify(math, physics)
Python(www.anaconda.com)
- Free
- 객체 지향 언어
- 프로그램 문법이 쉬움
- 머신 러닝, 딥 러닝 분야에 탁월한 기능
데이터 분석 예
엑셀을 이용한 데이터 분석
2000년부터 2018년도까지의 연도 별 총 출생 성비가 다음과 같다. 연도 별 출생 성비(여아 100명당 남아의 수)를 시계 열 도표로 그려보자
- 출생 성비 자료(KOSIS 국가 통계 포털)
http://kosis.kr → 국내 통계 → 주제 별 통계 → 인구 → 인구 동향 조사 → 출생 → 시도/출산 순위 별 출생 성비 선택
- 데이터 입력
- 첫번째 행은 변수(필드) 이름
- 차트 그리기
- 데이터 영역을 선택한 후, 메뉴 삽입 → 분산형 에서 원하는 차트를 선택
- 차트 수정
마우스로 왼쪽 축을 선택 → 마우스 오른쪽 단추를 눌러 나온 pop-menu에서 축 서식 선택 → 축의 최소, 최대 값을 변경
R를 이용한 데이터 분석
R를 이용한 데이터 분석 - 산점도, 상관 분석
다음은 어느 고등학교의 학생 10명을 임의로 뽑아서 수학과 물리 성적을 기록한 것이다. 두 변수 간의 산점도를 그리고, 두 변수 간의 상관 계수를 알아보도록 하자
- R 실행하기 - 산점도
명령어
1 2 3 4
ex12 <- read.csv("c:/data/ex1-2.csv") # csv 파일을 데이터 파일로 읽어들임 head(ex12) # 읽어들인 csv 파일 확인 plot(ex12$math, ex12$physics, pch=19, col="BLUE") # 산점도 title("\n Scatter Plot of (math, physics)\n") # 제목
실행 결과
- R 실행하기 - 상관 분석
명령어
1 2
cor(ex12$math, ex12$physics) cor.test(ex12$math, ex12$physics)
실행 결과
R Studio의 소개
- R Studio
- 사용자가 친숙하게 R을 쉽게 사용할 수 있도록 개발된 통합 환경 시스템
R Studio 화면
연습 문제
컴퓨터를 통하여 데이터 정보를 효율적으로 처리하기 위해 요구되는 사항이 아닌 것은?
a. 정보를 검색하고 수집․분석하기 위해서는 반드시 컴퓨터 프로그램 언어를 알아야 한다.
- 요구되는 사항
- 컴퓨터를 쉽게 사용할 수 있어야 한다.
- 데이터 분석에 대한 기본개념과 방법론들을 숙지하여야 한다.
- 데이터 분석을 위한 다양한 소프트웨어의 활용법을 숙지하여야 한다.
- 요구되는 사항
R 통계 패키지를 다운 받고자 한다. R 공식 사이트는?
a. www.r-project.org
다음 중 범용 통계 패키지에 대한 설명으로 잘못된 것은?
a. 파이썬은 미국에서 개발된 프로그램 언어로 스프레드시트 형태의 데이터 입력을 취하고 있다.
- 설명으로 알맞은 것
- SPSS는 GUI 환경 아래에서 통계 분석 및 자료 처리가 이루어지므로 쉽게 분석 처리를 할 수 있다.
- SAS는 방대한 양의 자료 처리 기능이 뛰어나며 다양한 통계 분석 절차를 제공하고 있다.
- R은 객체 지향 프로그래밍 언어로서 대화형 통계 분석과 그래프 기능이 뛰어나다.
- 설명으로 알맞은 것
( a ) - 조사, 실험의 계획 - 데이터의 수집 - ( b ) - 분석 결과의 평가
일반적인 데이터 분석 절차이다. ( )안에 순서대로 가장 적합한 것은?
a. a : 문제의 정의, b : 데이터의 정리, 분석
오늘날과 같이 효율적인 정보의 수집, 수집 된 정보의 가치 판단, 정보 활용 능력이 필수적으로 요구되는 사회를 가장 잘 나타낸 말은?
a. 지식 정보화 사회