학습 개요
- 엑셀이나 R, 파이썬 등을 이용한 데이터 분석 방법을 공부하기에 앞서 데이터에 대한 개념과 정의, 데이터 입력, 점검 등에 대하여 학습한다.
- 데이터란 관심 있는 어떤 주제에 대해서 수집 된 구조화된 정보이다.
- 데이터는 조사나 실험을 통해서 얻어지는데, 데이터를 분석하기 위해서는 데이터의 코딩 설계가 적합해야 하고, 알맞은 형태로 컴퓨터에 입력되어야 한다.
- 입력된 데이터에 입력 과정이나 조사 과정의 오류가 없는지 점검해야 한다.
학습 목표
- 데이터의 정의와 분석 목적을 설명할 수 있음
- 측정의 수준과 데이터의 종류에 대해서 설명할 수 있음
- 데이터의 입력 과정을 설명할 수 있음
- 입력된 데이터에 대한 점검 과정을 설명할 수 있음
주요 용어
- 데이터(data)
- 어떤 관심 있는 주제에 대해서 수집 된 구조화된 정보(organized information)
- 넓은 의미의 데이터는 수치, 문자, 그림 등의 표현 양식과 관계없이 어떤 주제에 대한 구조화된 정보를 뜻함
- 케이스(case)
- 특정 조사 단위로부터 얻어진 정보의 집합체를 말함
- 변수(variable)
- 각 조사 단위로부터 측정 된 개별적인 속성들
- 명목 척도(Nominal scale)
- 측정 대상의 속성을 단순히 분류하거나 확인할 목적으로 수치를 부여하는 경우에 해당함
- 단순히 범주 구분이 목적으로 수치의 대소 비교, 연산은 의미 없음
- 순서 척도(Ordinal scale)
- 어떤 특성을 많고 적음에 따라 몇 개의 수치 범주로 구분하여 수치를 부여하는 경우에 해당함
- 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고, 서열, 대소 관계의 구분만 의미 있음
- 구간 척도(Interval scale)
- 측정 대상을 속성에 따라 서열 화 함은 물론 서열 간의 간격이 같도록 수치를 부여하여 측정하는 경우에 해당함
- 연속 형 값으로 측정 값의 차이는 의미 있지만, 비(比)는 의미 없음
강의록
데이터의 개념
데이터(data)
- 어떤 관심 있는 주제에 대해서 수집 된 구조화 된 정보(organized information)
- 일반적인 의미의 데이터는 수치, 문자, 그림 등의 표현 양식과 관계 없이 어떤 주제에 대한 구조화된 정보를 뜻함
- 여러가지 수치 정보가 모여있는 것
- 모든 분석의 기초가 되는 것
- 데이터에서 분석 과정을 통해 얻는 것이 정보가 됨
데이터의 특징
- 어떤 관심 있는 주제에 대하여 얻어진 것
- 분석에 알맞은 일정한 규칙과 형태로 수집 되고 정리됨
- 분석 과정을 통해서 유용한 정보(information)로 변환
- 조사나 실험을 통해서 수집 되어 알맞은 형태로 변환
통계적 데이터(statistical data)
- 수치적 계산과 통계적 분석에 알맞은 데이터
데이터 분석의 목적
- 자연 및 사회 현상에 대한 정확한 현상(집단의 특징) 파악
- 왜 그런 현상이 나타나게 되었는지(인과관계) 규명
- 경제, 사회 현상 속에 숨어 있는 법칙성 발견
- 미래 생활 예측으로 합리적인 의사 결정 도움
- 궁극적으로 보면 합리적인 의사 결정을 목적으로 함
측정의 수준과 데이터 종류
데이터 수집 방법
- 통계 조사, 실험, 관찰 등을 통해서 조사 단위나 실험 단위로부터 정해진 측정 방법(측정 도구, 질문지)으로 측정하여 얻음
- 측정
- 각각의 조사 단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사 단위에 수치를 부여하는 작업
- 측정 된 전체 자료를 데이터(data)라고 함
- ex) 표본으로 뽑힌 사람들의 몸무게, 지능 혹은 취업 상태 등을 관측하여 수치로 나타내는 경우
데이터 관련 기본 용어
- 케이스(case, 레코드)
- 데이터 세트에서 하나의 조사 단위에 대한 정보의 집합체
- 변수(variable, 필드)
- 각 조사 단위로부터 측정 된 개별적인 속성
데이터 조사 및 표현
- ex) 어느 단체에서 10명을 표본으로 추출하여 각 사람으로부터 이름, 성별, 나이, 교육 정도, 월 수입(단위 : 만원)을 조사하는 경우
조사 데이터
1 2 3 4 5
* 이름 : 홍길동 * 성별 : 남자 * 나이 : 29 * 교육정도 : 고졸 * 월 수입 : 180
1 2 3 4 5
* 이름 : 성춘향 * 성별 : 여자 * 나이 : 27 * 교육정도 : 대졸 * 월 수입 : 210
데이터의 행렬 형태 표현
이름 성별 나이 학력 월수입 홍길동 남자 29 고졸 180 성춘향 여자 27 대졸 190 임꺽정 남자 30 . 220
- 데이터를 행렬 형태로 표시하면 이해하기 쉬움
- 각 행은 케이스(레코드), 각 열은 변수(필드)가 됨
- 임꺽정 케이스에서 교육 정도의 “.”는 결측 값을 뜻함
측정의 수준
- 측정 수준에 따라 명목 척도(nominal scale), 순서 척도(ordinal scale), 구간 척도(interval scale), 비율 척도(ratio scale)로 구분함
- 측정의 척도에 따라서 제공되는 정보의 수준과 데이터 분석에 이용할 수 있는 분석 방법이 달라짐
명목 척도(nominal scale : 명명 척도)
- 측정 대상의 속성을 단순히 분류하거나 확인할 목적으로 수치 부여
- 단순히 범주 구분이 목적임
- 수치의 대소 비교, 연산은 의미 없음
- ex) 남(1), 여(2) 구분, 운동선수 등 번호, 종교, 지지 정당, 거주지(대도시, 중소 도시, 농어촌) 등
순서 척도(ordinal scale : 서열 척도)
- 어떤 특성을 많고 적음에 따라 수치를 부여함
- 수치 자체가 어떤 절대적인 수나 양, 크기 등을 나타내지 않고, 서열, 대소 관계의 구분만 의미 있음
- ex) 제품이나 서비스의 질을 묻는 질문
- 아주 좋음(5), 약간 좋음(4), 보통(3), 약간 나쁨(2), 아주 나쁨(1)
구간 척도(interval scale : 등간 척도)
- 측정 대상을 속성에 따라 서열 화는 물론 서열 간의 간격이 같도록 수치 부여
- 연속 형 값으로 측정 값의 차이는 의미 있지만, 비(比)는 의미 없음
- 절대 0을 정의할 수 없고, 임의로 지정된 0만 있음
- ex) 섭씨 온도, IQ, 주가지수, 적성 검사 점수 등
비율 척도(ratio scale)
- 구간 척도와 유사하지만 측정 값의 차이 뿐만 아니라 비(比)도 의미 있는 경우
- 절대 0을 정의할 수 있음
- ex) 소득, 체중, 신장, 시간, 방문객 수 등 **
데이터의 구분
- 측정 수준에 따른 구분
- 질적 변수(qualitative variable)
- 명목 척도, 서열 척도, 순서 척도로 측정 된 자료
- 양적 변수(quantitative variable) : 연속 형 변수
- 구간 척도, 비율 척도로 측정 된 자료
- 질적 변수(qualitative variable)
- 측정 되는 변수의 수에 따른 구분
- 일변량 데이터
- 다변량 데이터
데이터의 입력
부호화(coding, 코딩)
- 수집 된 설문지의 응답 결과나 관측 결과 등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정
- 연속 형 변수는 관측된 값이 숫자이기 때문에 그대로 입력 가능
- 여러 사람이 부호화 작업에 참여할 때는 부호화의 일관성이 유지되도록 부호화 지침서(code book)를 만들어 사용함
데이터의 코딩 설계
- 조사/실험을 통해서 얻은 데이터를 입력할 때 어떻게 입력해야 더 간편하고, 효과적으로 분석할 수 있는 지를 구상하는 것
ex) 지방 자치 제도가 지역 발전에 미친 영향을 살펴보기 위해서 표본 조사를 실시하는 사례
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
<설문지 예> 1. 지방 자치 제도가 지역 발전에 도움을 준다고 생각하십니까? ( ) ① 많은 도움을 준다. ② 조금 도움을 준다. ③ 별 도움을 주지 못한다. ④ 전혀 도움을 주지 못한다. 2. 지방 자치가 실시된 이후 지역 간의 경제 불균형에 대해 어떻게 생각하십니까? ( ) ① 지역 간 경제 불균형이 해소되고 있다. ② 과거와 별 차이 없다. ③ 지역 간의 불균형이 심화되고 있다. ④ 잘 모르겠다. 3. 당신의 성별은? 남 ( ), 여 ( ) 4. 당신의 나이는 몇 세이십니까? ( ) ① 20세 미만 ② 20-29세 ③ 30-39세 ④ 40-49세 ⑤ 50-59세 ⑥ 60세 이상 5. 당신의 현재 거주지는 어디입니까? ( ) ① 서울시 ② 광역시 ③ 경기/강원 ④ 충북/충남 ⑤ 경북/경남 ⑥ 전북/전남 ⑦ 제주
- 설문지의 내용 구성
- 1, 2 문항 - 지방 자치 제도의 역할을 묻는 문항
- 3, 4, 5 문항- 응답자의 속성을 묻는 문항
질문지에 대한 부호화 지침
설문번호 변수명 영문 변수명 입력열 코드 및 설명 일련번호 ID 1~2 1 지역발전 C1 4 1, 2, 3, 4, 9(무응답) 2 지역경제 C2 6 1, 2, 3, 4, 9(무응답) 3 성별 P1 8 1(남), 2(여), 9(무응답) 4 나이 P2 10 1, 2, 3, 4, 5, 6, 9(무응답) 5 출신지 P3 12 1, 2, 3, 4, 5, 6, 7, 9(무응답)
- 설문지의 내용 구성
텍스트 파일
- ASCII 코드 형식으로 저장된 파일로 아스키 파일이라고도 함
- 한글 2018에서 일정한 양식으로 데이터 입력 후, 파일 > 다른 이름으로 저장 > 파일 형식 텍스트 파일로 저장
- 자유 형식(free format)과 고정 형식(fixed format)으로 구분
자유 형식
- 변수와 변수 구분은 공란(blank)으로 구분
고정 형식
- 각 변수가 위치할 열(칼럼)을 정한 후 입력
한글 2018에서 데이터 입력
스프레드 시트나 데이터 베이스 파일
- 엑셀 등에서 간편한 데이터 입력 가능
- 열은 변수를 나타내고, 행은 케이스를 나타냄
SPSS에서 데이터 입력
- 직접 데이터를 입력하거나 텍스트 파일, 엑셀 파일 등을 읽을 수 있음
SAS에서 데이터 입력
- SAS 편집기에 데이터를 직접 입력하거나 외부 입력 파일을 읽어옴
S-link에서 데이터 입력
- 직접 S-Link 워크 시트에 데이터를 입력하거나 외부의 텍스트 파일이나 엑셀 파일을 읽을 수 있음
데이터의 점검
디버깅(debugging)
- 입력 오류나 또는 조사 상 실수로 인한 오류(bug)를 찾아 수정 할 목적으로 데이터 세트를 검토하고 분석하는 것
데이터 입력 오류 점검(데이터가 큰 경우)
- 각 변수의 입력 범위를 확인하는 방법
- 변수들 간의 논리적 일관성 여부를 확인하는 방법
각 변수의 입력 범위를 확인하는 방법
- ex) 응답자의 성별을 나타내는 변수에 대해서 남자(1), 여자(2)로 나타낸 경우
- 변수 값이 1보다 작거나 2보다 큰 경우가 있다면 입력 과정 상의 오류이거나 응답자의 잘못된 응답 또는 조사원의 실수로 발생하였다고 볼 수 있음
변수들 간의 논리적 일관성 여부를 확인하는 방법
ex) 환자의 성별과 암의 종류 간에 교차 표 작성
구분 위암 간암 폐암 유방암 자궁암 기타 계 남자(1) 8 12 13 0 3 4 40 여자(2) 5 3 4 9 7 2 30 - 남자는 자궁 암이 발생할 수 없음에도 불구하고 3명의 환자가 자궁 암으로 입원하였음
- 해당 케이스의 관측 값을 확인하여 환자 성별이나 암 종류에 대한 입력 오류 여부 확인
연습 문제
설문 문항에서 명목 척도에 해당하는 것은?
설문 응답 문항1. 당신의 나이는 몇 세입니까? ( )세 문항2. 당신의 성별은? 1. 남자 2. 여자 문항3. 당신은 현재의 전공에 만족합니까? 1. 매우 만족 2. 약간 만족 3. 약간 불만족 4. 매우 불만족 문항4. 당신의 전공 분야는 무엇입니까? 1. 인문학 2. 사회과학 3. 자연과학 4. 공학 5. 농학 6. 기타 a. 문항 2, 문항4
주어진 설문지를 이용하여 100명의 학생들에게 응답을 얻었다. 데이터의 구성에 대한 올바른 설명은?
a. 100개의 케이스와 4개의 변수로 구성된다.
다음의 데이터에 대한 설명 중 올바른 것끼리 짝 지어진 것은?
1 2 3
Ⅰ. 데이터는 어떤 관심 주제에 대한 구조화된 정보(information)이다. Ⅱ. 데이터 수집의 대표적인 방법으로는 조사, 실험, 관찰 등을 들 수 있다. Ⅲ. 데이터는 숫자로만 이루어져 있다.
a. Ⅰ, Ⅱ
다음 측정 수준에 대한 설명 중 옳지 않은 것은?
a. 변수의 측정 수준이 적합한 통계 분석 기법의 선택에 영향을 미치지는 않는다.
- 측정 수준에 대한 설명으로 옳은 것
- 명목 척도에서 각 조사 단위에 부여된 숫자는 구분을 목적으로 부여된 기호에 불과하다.
- 섭씨 온도, 습도, 지능 지수 등은 구간 척도로 측정 된 값이다.
- 계란을 크기에 따라 대․중․소로 구분하면 순서 척도로 측정 된 것이다.
- 측정 수준에 대한 설명으로 옳은 것
데이터를 입력한 후, 제대로 입력되었는지 점검하고자 한다. 데이터의 오류를 점검하기 위한 방법이 아닌 것은?
a. 설문 항목 중 하나라도 응답하지 않은 경우가 있다면 해당 설문지는 분석에서 제외한다.
- 데이터 오류를 점검하기 위한 방법
- 각 변수의 입력 범위를 벗어난 케이스를 확인해 본다.
- 변수 간의 논리적 연관성을 고려하여 확인한다.
- 각 케이스를 조사된 설문지와 비교하면서 점검한다.
- 데이터 오류를 점검하기 위한 방법
통계 · 데이터 과학과에 재학 중인 학생들을 대상으로 통계 조사를 실시하였다. 다음에 제시된 변수를 조사하였는데, 이 중 명목 척도로 측정 된 변수는 몇 개인가?
a. 2개