R

R언어 공부 - 통계 기본 이론

JJJM 2023. 7. 5. 11:54

 R언어 프로그램은 통계학에서 주로 사용되는 프로그램이다. 따라서 통계학 이론에 대해 공부할 필요가 있다.


 통계학의 기초

 

 - 통계학의 기원 : 통계학은 인구조사, 세금 징수 등과 같은 국가 유지 수단에서 기원했다.

 - 통계 : 조사를 통하여 수집된 자료들을 수치로 종합해 놓은 것이다.

 - 통계학 : 정보를 최적의 방법으로 수집하고, 수집한 자료를 정리하는 학문이다.

 즉, 통계는 통계분석의 원자료, 통계학은 분석 도구인셈이다.

 


 통계학의 필요성

 

 - 좀 더 나은 의사결정을 하기 위한 수단이다.

 - 통계학은 방대한 자료의 특징을 한 눈에 이해 할 수 있도록 요약, 정리 해주는 기능이 있다.

 ex) 경제성장률을 기초로 정부의 다음해 세수 결정

       소비자의 성향 파악으로 기업의 마케팅 전략 수립

 


 자료의 구분

질적 자료 명목자료 이산형자료
서열자료
양쟉 자료 등간 자료 이산형 자료
비율 자료 연속형 자료

 

 자료는 셀 수 있느냐 없느냐로 보통 나뉘는 것 같다.

 이산형 자료가 셀 수 있는 자료이고, 연속형 자료가 셀 수 없는 자료이다.

 


 변수와 상수

 

 - 변수 : 여러번 측정 할 때 그 값이 변할 수 있는 것.

 - 상수 : 항상 일정한 값을 가지는 것.

 


 모집단과 표본

 

 - 모집단 : 대상이 되는 전체 집단. ex) 전 국민, 우리나라 전체 대학생

 - 표본 : sample. 전체로부터 추출된 부분. 모집단을 적절히 대표할 수 있어야 한다.

 통계는 주로 표본 조사를 실시한다. 시간과 비용을 아끼기 위해서다.

 


 기술통계와 추리통계

 

 - 기술통계 : 모집단의 자료를 수집 > 정리, 요약 > 표, 그래프 등으로 표현.

                    자료를 단순하게 정리하는 것을 말한다.

 - 추리통계 : 기술통계로부터의 정보를 통해 모집단의 특성을 추론, 미래예측 등을 하는것을 말한다.

                     기술통계의 결과물을 활용하는 것이다.

 


 양적 변수와 질적 변수

 

 - 양적 변수 : 수치로 표현이 가능한 변수.  ex) 영어점수, 나이

 - 질적 변수 : 측정 수치로 표현이 불가능한 변수.  ex) 성별, 종교

 


 

 자료와 척도

자료 척도 특징 사칙연산
질적자료 명목척도 특성의 분류, 식별   성별, 종교
서열척도 서열화 < , > 학력
양적자료 등간척도 절대값 '0' (x) < , > , + , - IQ, 온도
비율척도 절대값 '0' (o) <, > , + , - , * , / 신장, 연령

 - 양적자료에서 절대값 '0' 이란 0이 표현을 목적으로 쓰이는건지 아니면 진짜 0 zero 인건지에 따라 나뉘는 것이다.

    ex) 온도를 예를 들면 섭씨 0도 는 온도가 없는게 아니지 않는가. 0도씨는 물의 어는점을 표현 한것 뿐이다. 0도씨가 없는 것이라면 0도씨에서는 춥지도 덥지도 않아야 하지 않을까?

         반대로  '0' 이 진짜 0인 경우는 경력을 예로 들면, 경력 0년은 진짜 경력이 아예 없는 상태와 같은 것을 말한다.

 

 

참고문헌

정건섭, 김성우, R과 R Studio를 활용한 사회과학 통계연습, 윤성사, 2019

 

감사합니다.