기초 개념/용어 정리
모집단(Population): 어떤 정보를 얻기 위해 선택된 집단 전체, 특정 연구 결과가 일반화되어지는 전체 집단
표본집단(Sample): 모집단 중 일부. 일반적으로 표본집단을 활용한 표본조사 결과를 바탕으로 모집단의 특성을 일반화함
대푯값(Representative Data): 집단의 특징/경향을 가리키는 값으로, 평균(mean)/중앙값(median)/최빈값(most)이 있음
이산형 변수(Discrete Data): 셀 수 있는 데이터
이산형 변수의 도수분포표에서는 '특정 값이 몇 개 존재하는지'를 알 수 있음
연속형 변수(Continuous Data): 실수로 표현되는(연속적인) 셀 수 없는 데이터
연속형 변수의 도수분포표에서는 '계급'을 사용해 범위를 정한 다음 그 계급에 몇 개의 값이 포함되는지를 알 수 있음
<연속형 변수의 계급 크기 결정>
- 계급의 최솟값은 실제 최솟값에서 0.5를 뺀 값으로, 최댓값은 실제 최댓값에서 0.5를 더한 값으로 지정
(그렇게 하지 않으면 하나의 값이 두 개의 계급에 포함되거나 아예 도수분포표에 나타나지 않을 수 있기 때문)
e.g. 최솟값이 1, 최댓값이 3인 경우의 계급:
0.5 =< x < 1.5
1.5 =< x < 2.5
2.5 =< x < 3.5
분산(Variance): 자료가 분포된 정도. (편차의 제곱의 평균) 또는 {(변량의 제곱의 평균) - (변량의 평균의 제곱)}으로 구할 수 있음(*편차: 변량 - 평균)
표준편차(Standard Deviation): 분산의 양의 제곱근
사분범위(Inter-Quantile Range, IQR): 중앙값의 데이터들이 흩어진 정도(중앙값 이상에서의 중앙값~중앙값 이하에서의 중앙값)
즉, 상위 25%부터 75% 사이의 값들이 분포되어 있는 정도
p번째 백분위수(The p-th Percentile): 전체 값 중 p%의 다른 값이 특정 값보다 작거나 그것과 같음
e.g. 내가 받은 점수가 백분위 96%일 경우, 96%의 사람들이 내 점수 이하의 점수를 가졌다는 뜻
Z점수(Z-Score): (변량-평균)/표준편차
자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 보여 줌
0(변환된 평균값)을 중심으로 각 자료의 절대 위치를 상대적 위치로 변환한 값
표본추출(Sampling)
모집단의 특성(평균/표준편차 등)을 알고 싶을 때, 모집단 내의 모든 개체들을 하나하나 조사할 수 없으므로 일부만 뽑아서 일반화하는데 이를 표본조사라고 하고, 표본조사에 사용된 집단은 표본집단이라고 함
모집단에서 표본을 추출하는 방법(Sampling)에는 두 가지가 있음
1. 복원 추출(Sampling with replacement)
2. 비복원 추출(Sampling without replacement)
예를 들어 한 상자 안에서 공을 두 개 뽑을 때
첫 번째 공을 뽑고 그 공을 다시 넣은 뒤 두 번째 공을 뽑는 것은 복원 추출,
첫 번째 공을 뽑았는데 그 공을 다시 넣지 않고 두 번째 공을 뽑는 것은 비복원 추출
*모수(parameter): 통계적 추론에서 분석자의 최종 목표(모집단의 특성)
통계랑(statistic): 해당 모집단에서 추출한 표본을 이용해 만든 표본들의 함수
확률의 3공리(3 Axioms of Prabability)
1. 어떤 확률이 일어날 확률은 0 이상 1 이하이다
2. 표본공간의 확률은 1
*표본공간(Sample Space): 가능한 모든 표본의 집합
3. 사건 A와 사건 B가 동시에 일어날 확률이 공집합이면 A 또는 B가 일어날 확률은 A가 일어날 확률과 B가 일어날 확률의 합이다