Home [데이터 정보 처리 입문] 1강 - 데이터 분석과 컴퓨터
Post
Cancel

[데이터 정보 처리 입문] 1강 - 데이터 분석과 컴퓨터

💡해당 게시글은 방송통신대학교 김성수, 이기재 교수님의 '데이터 정보 처리 입문' 강의를 개인 공부 목적으로 메모하였습니다.



학습 개요


  • 지식 정보화 사회에서 우리는 수많은 정보를 접하게 되는데, 특히 많은 부분이 데이터를 통한 정보라고 할 수 있음
  • 우리가 살고 있는 현실을 파악하고, 현실을 이해하는 많은 과정이 데이터를 통해서 이루어짐
  • 데이터 분석을 위해서는 데이터 분석에 대한 기본 개념과 방법론이 요구되며, 데이터 분석 소프트웨어의 활용이 필수적으로 요구됨
  • 데이터 분석을 위한 기본 개념을 소개하고, 데이터 분석 소프트웨어들을 소개하고, 엑셀과 R을 이용한 데이터 분석 예를 소개함



학습 목표


  • 지식 정보화 사회에서 컴퓨터의 활용에 대하여 이해할 수 있음
  • 데이터 분석 절차를 설명할 수 있음
  • 데이터 분석 소프트웨어들을 설명할 수 있음
  • 엑셀과 R을 이용한 데이터 분석 예를 설명할 수 있음



강의록


데이터 정보와 컴퓨터

지식 정보화

  • 정보화 사회
    • 빅 데이터(Big Data), 딥러닝(Deep Learning), AI(Artificial Intelligence) 시대
    • 정보가 중심이 되어 사회, 경제가 움직이는 사회
    • 정보의 수집과 분석 및 정확한 파단 없이는 살아갈 수 없는 사회
    • 정보가 급격하게 증대, 성장, 보급되는 사회
  • 정보화 사회에서는 효율적인 정보의 수집, 수집된 정보의 가치 판단, 정보 활용 능력 등이 필수적으로 요구됨
    • 이러한 의미에서 지금은 지식 정보화 사회라고함
  • 지식 정보화 사회에서 데이터를 효율적으로 처리하고 분석하기 위해서는 컴퓨터의 활용데이터 분석 능력이 필수적임

지식 정보화 사회에서 필수적인 요구 사항

  • 컴퓨터의 활용 방법을 알고 있어야 함
  • 인터넷을 효율적으로 활용할 수 있도록 함
  • 정보를 제대로 이해하고, 문제를 파악하고 판단하기 위한 통계적인 (논리적인) 사고가 요구됨
  • 데이터 분석에 대한 기본 개념과 방법론들을 숙지
  • 데이터로부터 유용한 정보를 추출하고, 합리적인 의사 결정을 하기 위해서는 데이터 분석 소프트웨어를 잘 활용할 수 있도록 함

데이터 분석 개요

데이터 분석 절차

  • 문제의 정의 → 조사, 실험의 계획 → 데이터의 수집 → 데이터의 정리, 분석 → 분석 결과의 평가

    image

문제의 정의

  • 일반적으로 연구의 시작은 대개 간단하고 모호한 질문으로부터 시작됨
    • 이것을 자세하고 정확한 질문으로부터 구체화 시켜 연구의 목적으로 하는 것이 문제의 정의임
    • 연구 대상이 되는 모집단이 어떠한 것이며, 무엇이 불확실한 상황이고, 어떠한 의사 결정들이 내려질 수 있는 지에 대한 자세한 검토가 이루어져야 함

조사 실험의 계획

  • 연구의 목적이 명확하게 정의가 되면 달성할 수 있는 조사 또는 실험을 계획하여야 함
    • 구체적으로 연구 대상이 되는 모집단을 모두 조사할 것인지 아니면 표본만을 조사할 것인지 결정
  • 표본을 조사하려고 한다면 어떻게 표본을 선택할 것이며, 표본의 크기는 어느 정도로 하며, 각 표본에서는 무슨 자료를 얻을 것 인지를 결정해야 함

데이터의 수집

  • 구체적인 조사, 실험이 계획되면 이에 따라 데이터를 수집
  • 어느 경우에는 자료가 이미 수집 되어 있거나, 인터넷 또는 문헌에서 쉽게 구할 수도 있는데, 이때는 이 자료들이 과연 연구 목적에 적절하고 정확한 것인지 검토
  • 직접 자료를 수집하는 일은 대개 시간과 경비가 많이 들고 또 오류도 많이 발생할 수 있는 매우 복잡하고 힘든 일임.
  • 어느 경우에는 계획한 대로 자료를 수집하기가 불가능한 경우도 있고, 수집 된 자료가 연구 목적에 적절하지 않은 경우도 있음
  • 이러한 문제점들을 줄이기 위해 예비 자료를 먼저 수집하여 자료 수집 계획을 수정 또는 보완하기도 함.

데이터의 정리 분석

  • 적절한 데이터를 수집한 후에는 도표나 그림을 이용하여 자료를 정리
  • 또한 주어진 문제의 해결에 적합한 분석 방법을 이용하여 자료를 분석
  • 데이터 분석 시스템의 활용
    • 엑셀, R, python, SAS, SPSS, Minitab 등
  • 통계적 방법
    • 기술 통계, 탐색적 자료 분석, 범주형 자료분석, 두 모집단 비교, 회귀 분석, 실험 계획, 다변량 분석 등

분석 결과의 평가

  • 분석된 결과를 이용하여 연구 목적에서 제기 된 질문에 대한 결론을 내림
  • 어느 경우에는 부분적인 답만 결론 내릴 수도 있고, 다른 경우에는 제기 되지 않았던 질문에 대한 결론도 얻을 수 있음
  • 결론에 따른 여러 가지 새로운 연구에 대한 제안도 할 수 있음

데이터 분석 소프트웨어 소개

SPSS(www.spss.co.kr)

  • GUI(Graphic User Interface) 환경 하에서 통계 분석 및 자료 처리가 이루어짐
  • 분석 절차에 맞게 다양한 대화 상자가 제공되므로 쉽게 분석 처리가 가능
  • 스프레드시트 형태의 데이터 입력으로 일반 사용자에게 친숙
  • 메뉴 방식 및 프로그램 방식을 모두 이용하여 통계 분석 절차를 제공
  • 메뉴 방식을 이용한 통계 그래픽스 기능이 뛰어남

SPSS 사용 - 기술 통계량을 구하는 예

  1. 데이터 입력 : SPSS를 실행하고 데이터를 입력한 초기 화면

    image3

  2. 분석 → 기술 통계량 → 기술 통계 선택

    image4

  3. 대화 상자에서 변수 선택

    image6

  4. 기술 통계 출력 결과

    image6

SAS(www.sas.com)

  • 자료의 처리 기능이 뛰어남
  • 데이터베이스, 데이터 웨어하우징(data warehousing) 등의 기능이 탁월
  • 다양한 통계 분석 절차
  • 데이터 마이닝 기능이 뛰어남
  • 빅 데이터 솔루션 기능
  • 프로그램 방식이 기본

SAS 모듈(module)

  • SAS/BASE : SAS 기본
  • SAS/STAT : 자료의 분석 및 통계 분석
  • SAS/AF : 응용 프로그램 개발 지원
  • SAS/ASSIST : 메뉴 형식의 SAS 시스템 지원
  • SAS/ETS : 시계열 분석
  • SAS/GRAPH : 그래프
  • SAS/IML : 행렬 연산
  • SAS/INSIGHT : 통계 분석 및 그래픽 구현
  • SAS/OR : Operation Research
  • SAS/QC : 통계적 품질 관리
  • SAS/E-Miner : 데이터마이닝

SAS 사용 - 산점도 및 상관 계수

image7

image8

R(www.r-project.org)

  • Free
  • 기능이 매우 뛰어남
  • 프로그램 처리 방식
  • 자료 처리, 분석 및 그래픽스 분야에 탁월한 기능

R 다운 받기

R 사용

image.png

1
2
3
4
5
6
math = c(66, 64, 48, 78, 60, 90, 50, 66, 70)
physics = c(70, 68, 46, 84, 64, 92, 52, 68, 72)
cor(math, physics)
plot(math, physics, pch=16, col="BLUE", main="(수학, 물리) 산점도")
abline(lm(physics~math))
identify(math, physics)

Python(www.anaconda.com)

  • Free
  • 객체 지향 언어
  • 프로그램 문법이 쉬움
  • 머신 러닝, 딥 러닝 분야에 탁월한 기능

데이터 분석 예

엑셀을 이용한 데이터 분석

  • 2000년부터 2018년도까지의 연도 별 총 출생 성비가 다음과 같다. 연도 별 출생 성비(여아 100명당 남아의 수)를 시계 열 도표로 그려보자

    image9

  1. 출생 성비 자료(KOSIS 국가 통계 포털)
    • http://kosis.kr → 국내 통계 → 주제 별 통계 → 인구 → 인구 동향 조사 → 출생 → 시도/출산 순위 별 출생 성비 선택

      image10

  2. 데이터 입력
    • 첫번째 행은 변수(필드) 이름

    image11

  3. 차트 그리기
    • 데이터 영역을 선택한 후, 메뉴 삽입 → 분산형 에서 원하는 차트를 선택

    image12

  4. 차트 수정
    • 마우스로 왼쪽 축을 선택 → 마우스 오른쪽 단추를 눌러 나온 pop-menu에서 축 서식 선택 → 축의 최소, 최대 값을 변경

      image13

R를 이용한 데이터 분석

image14

R를 이용한 데이터 분석 - 산점도, 상관 분석

  • 다음은 어느 고등학교의 학생 10명을 임의로 뽑아서 수학과 물리 성적을 기록한 것이다. 두 변수 간의 산점도를 그리고, 두 변수 간의 상관 계수를 알아보도록 하자

    image15

  1. R 실행하기 - 산점도
    • 명령어

      1
      2
      3
      4
      
        ex12 <- read.csv("c:/data/ex1-2.csv") # csv 파일을 데이터 파일로 읽어들임
        head(ex12) # 읽어들인 csv 파일 확인
        plot(ex12$math, ex12$physics, pch=19, col="BLUE") # 산점도
        title("\n Scatter Plot of (math, physics)\n") # 제목
      
    • 실행 결과

    image17

  2. R 실행하기 - 상관 분석
    • 명령어

      1
      2
      
        cor(ex12$math, ex12$physics)
        cor.test(ex12$math, ex12$physics)
      
    • 실행 결과

      image16

R Studio의 소개

  • R Studio
    • 사용자가 친숙하게 R을 쉽게 사용할 수 있도록 개발된 통합 환경 시스템
  • R Studio 화면

    image18



연습 문제


  1. 컴퓨터를 통하여 데이터 정보를 효율적으로 처리하기 위해 요구되는 사항이 아닌 것은?

    a. 정보를 검색하고 수집․분석하기 위해서는 반드시 컴퓨터 프로그램 언어를 알아야 한다.

    • 요구되는 사항
      • 컴퓨터를 쉽게 사용할 수 있어야 한다.
      • 데이터 분석에 대한 기본개념과 방법론들을 숙지하여야 한다.
      • 데이터 분석을 위한 다양한 소프트웨어의 활용법을 숙지하여야 한다.
  2. R 통계 패키지를 다운 받고자 한다. R 공식 사이트는?

    a. www.r-project.org

  3. 다음 중 범용 통계 패키지에 대한 설명으로 잘못된 것은?

    a. 파이썬은 미국에서 개발된 프로그램 언어로 스프레드시트 형태의 데이터 입력을 취하고 있다.   

    • 설명으로 알맞은 것
      • SPSS는 GUI 환경 아래에서 통계 분석 및 자료 처리가 이루어지므로 쉽게 분석 처리를 할 수 있다.
      • SAS는 방대한 양의 자료 처리 기능이 뛰어나며 다양한 통계 분석 절차를 제공하고 있다.
      • R은 객체 지향 프로그래밍 언어로서 대화형 통계 분석과 그래프 기능이 뛰어나다.
  4. ( a ) - 조사, 실험의 계획 - 데이터의 수집 - ( b ) - 분석 결과의 평가

    일반적인 데이터 분석 절차이다. ( )안에 순서대로 가장 적합한 것은?

    a. a : 문제의 정의, b : 데이터의 정리, 분석

  5. 오늘날과 같이 효율적인 정보의 수집, 수집 된 정보의 가치 판단, 정보 활용 능력이 필수적으로 요구되는 사회를 가장 잘 나타낸 말은?

    a. 지식 정보화 사회

[Java 프로그래밍] 1강 - JAVA와 객체 지향 프로그래밍

[유비쿼터스 컴퓨팅 개론] 1강 - 유비쿼터스 혁명