R언어 공부 - 통계 기본 이론
R언어 프로그램은 통계학에서 주로 사용되는 프로그램이다. 따라서 통계학 이론에 대해 공부할 필요가 있다.
통계학의 기초
- 통계학의 기원 : 통계학은 인구조사, 세금 징수 등과 같은 국가 유지 수단에서 기원했다.
- 통계 : 조사를 통하여 수집된 자료들을 수치로 종합해 놓은 것이다.
- 통계학 : 정보를 최적의 방법으로 수집하고, 수집한 자료를 정리하는 학문이다.
즉, 통계는 통계분석의 원자료, 통계학은 분석 도구인셈이다.
통계학의 필요성
- 좀 더 나은 의사결정을 하기 위한 수단이다.
- 통계학은 방대한 자료의 특징을 한 눈에 이해 할 수 있도록 요약, 정리 해주는 기능이 있다.
ex) 경제성장률을 기초로 정부의 다음해 세수 결정
소비자의 성향 파악으로 기업의 마케팅 전략 수립
자료의 구분
질적 자료 | 명목자료 | 이산형자료 |
서열자료 | ||
양쟉 자료 | 등간 자료 | 이산형 자료 |
비율 자료 | 연속형 자료 |
자료는 셀 수 있느냐 없느냐로 보통 나뉘는 것 같다.
이산형 자료가 셀 수 있는 자료이고, 연속형 자료가 셀 수 없는 자료이다.
변수와 상수
- 변수 : 여러번 측정 할 때 그 값이 변할 수 있는 것.
- 상수 : 항상 일정한 값을 가지는 것.
모집단과 표본
- 모집단 : 대상이 되는 전체 집단. ex) 전 국민, 우리나라 전체 대학생
- 표본 : sample. 전체로부터 추출된 부분. 모집단을 적절히 대표할 수 있어야 한다.
통계는 주로 표본 조사를 실시한다. 시간과 비용을 아끼기 위해서다.
기술통계와 추리통계
- 기술통계 : 모집단의 자료를 수집 > 정리, 요약 > 표, 그래프 등으로 표현.
자료를 단순하게 정리하는 것을 말한다.
- 추리통계 : 기술통계로부터의 정보를 통해 모집단의 특성을 추론, 미래예측 등을 하는것을 말한다.
기술통계의 결과물을 활용하는 것이다.
양적 변수와 질적 변수
- 양적 변수 : 수치로 표현이 가능한 변수. ex) 영어점수, 나이
- 질적 변수 : 측정 수치로 표현이 불가능한 변수. ex) 성별, 종교
자료와 척도
자료 | 척도 | 특징 | 사칙연산 | 예 |
질적자료 | 명목척도 | 특성의 분류, 식별 | 성별, 종교 | |
서열척도 | 서열화 | < , > | 학력 | |
양적자료 | 등간척도 | 절대값 '0' (x) | < , > , + , - | IQ, 온도 |
비율척도 | 절대값 '0' (o) | <, > , + , - , * , / | 신장, 연령 |
- 양적자료에서 절대값 '0' 이란 0이 표현을 목적으로 쓰이는건지 아니면 진짜 0 zero 인건지에 따라 나뉘는 것이다.
ex) 온도를 예를 들면 섭씨 0도 는 온도가 없는게 아니지 않는가. 0도씨는 물의 어는점을 표현 한것 뿐이다. 0도씨가 없는 것이라면 0도씨에서는 춥지도 덥지도 않아야 하지 않을까?
반대로 '0' 이 진짜 0인 경우는 경력을 예로 들면, 경력 0년은 진짜 경력이 아예 없는 상태와 같은 것을 말한다.
참고문헌
정건섭, 김성우, R과 R Studio를 활용한 사회과학 통계연습, 윤성사, 2019
감사합니다.