확률과 통계 > 통계

용어 : 통계적 추정

통계적 추정의 궁극적 목적은 표본을 한 번만 추출해서 모평균의 추정 범위를 개략적으로 구하는 것입니다. `모집단과 표본'은 그저 복선에 불과하며, `정규분포'의 개념과 `모집단의 표본'의 개념을 엮어 궁극적 목적을 달성하게 됩니다. 이에 유의하며 용어를 정리해봅시다.

모집단과 표본

통계조사에서 조사하고자 하는 대상 전체를 모집단이라고 하며, 모집단 전체를 조사하는 것을 전수조사라 합니다. 모집단에서 일부를 추출한 일부분을 표본이라 하고, 표본을 조사하는 것을 표본조사라고 합니다. 이때 추출된 표본에 포함된 대상의 개수를 표본의 크기라고 합니다.

모집단의 각 자료가 같은 확률로 독립적으로 추출하는 것을 임의추출이라고 합니다. 한 개의 자료를 추출하고 되돌려 놓고 다시 추출하는 것을 복원추출이라고 하는데, 이러한 복원추출은 임의추출입니다. 한편, 한 개의 자료를 추출한 후 되돌려 놓지 않고 다시 추출하는 것을 비복원추출이라고 하는데, 표본의 크기가 충분히 크면 비복원추출도 임의추출로 볼 수 있습니다.¹교과서는 이 충분히 큰 $n$의 기준을 밝히지 않고 있습니다.

모집단에서 조사하고자 하는 성질을 나타내는 확률변수를 $X$라 할 때, $X$의 평균, 분산, 표준편차를 각각 모평균, 모분산, 모표준편차라고 하며, 각각 $m$, $\sigma^2$, $\sigma$라 표기합니다.

모집단에서 임의추출한 크기가 $n$인 표본을 $X_1$, $X_2$, $\cdots$, $X_n$이라 할 때, 이들의 평균, 분산, 표준편차를 각각 표본평균, 표본분산, 표본표준편차라고 하며, 각각 $\ovl X$, $S^2$, $S$라 표기합니다.²표본분산에서 $n$이 아니라 $n-1$로 나누는 것은 일단 `그런가 보다' 하고 받아들입시다. \[\begin{align*} \ovl X=\dfrac{1}{n}\sum_{k=1}^{n}X_k, \quad S^2&=\dfrac{1}{n-1}\sum_{k=1}^{n}\left( X_k - \ovl{X} \right)^2,\quad S=\sqrt{S^2} \end{align*}\] 모평균 $m$은 고정된 상수이지만, 모집단에서 크기가 같은 표본을 임의추출했을 때 표본평균 $\ovl X$는 추출된 표본에 따라 값이 정해지는 확률변수입니다. 따라서 $\ovl X$의 확률분포, 평균, 표준편차 등을 구할 수 있습니다.

표본평균의 분포

일반적인 경우

모평균이 $m$, 모표준편차가 $\sigma$인 모집단에서 크기가 $n$인 표본을 임의추출할 때, 확률변수인 표본평균 $\ovl X$에 대하여 다음이 성립합니다. \[\begin{align*} \E{\ovl X} = m, \quad \V{\ovl X} = \dfrac{\sigma^2}{n}, \quad \SIG{\ovl X} = \dfrac{\sigma}{\sqrt{n}} \end{align*}\] 이는 모집단이 이산확률변수인지 연속확률변수인지 관계없이, 모집단의 확률분포가 어떤지에 관계없이 항상 성립합니다.

모집단이 정규분포를 따르는 경우

모집단이 정규분포 $\ND{m}{\sigma^2}$을 따를 때, 확률변수인 표본평균 $\ovl X$는 정규분포 $\ND{m}{\dfrac{\sigma^2}{n}}$를 따릅니다.³

모집단이 정규분포를 따르지 않지만, 표본의 크기가 충분히 큰 경우

모집단의 분포가 정규분포를 따르지 않을 때에도, $n$이 충분히 크면 확률변수인 표본평균 $\ovl X$는 근사적으로 정규분포 $\ND{m}{\dfrac{\sigma^2}{n}}$를 따릅니다.⁴

통계적 추정

표본조사에서 모집단의 일부인 표본을 조사하여 얻은 정보로부터 모집단의 성질을 확률적으로 추측하는 것을 추정이라고 합니다. 확률변수인 표본평균 $\ovl X$을 단 한 번 구해 얻은 값 $\ovl x$를 이용하여 모평균 $m$을 추정할 때, 모평균 $m$이 특정 범위에 포함될 확률이 $k\%$가 되도록 어떤 닫힌구간을 정할 수 있습니다. 이때 이 닫힌구간을 모평균 $m$에 대한 신뢰도 $k\%$의 신뢰구간이라고 합니다.⁵

탁상공론형 통계적 추정

정규분포 $\ND{m}{\sigma^2}$을 따르는 모집단에서 크기가 $n$인 표본을 임의추출하여 구한 표본평균 $\ovl{X}$의 값이 $\ovl{x}$일 때, 모평균 $m$의 신뢰구간은 다음과 같습니다.

신뢰도 $95\%$의 신뢰구간 : $\CCI{\ovl x - 1.96\dfrac{\sigma}{\sqrt{n}} }{\ovl x + 1.96\dfrac{\sigma}{\sqrt{n}} }$
신뢰도 $99\%$의 신뢰구간 : $\CCI{\ovl x - 2.58\dfrac{\sigma}{\sqrt{n}} }{\ovl x + 2.58\dfrac{\sigma}{\sqrt{n}} }$

현실적인 통계적 추정

표본의 크기 $n$이 충분히 클 때⁶ 표본표준편차 $S$의 값 $s$를 모표준편차 $\sigma$ 대신 쓸 수 있음이 알려져 있습니다. 이를 이용하여 구한 모평균 $m$의 신뢰구간은 다음과 같습니다.

신뢰도 $95\%$의 신뢰구간 : $\CCI{\ovl x - 1.96\dfrac{s}{\sqrt{n}} }{\ovl x + 1.96\dfrac{s}{\sqrt{n}} }$
신뢰도 $99\%$의 신뢰구간 : $\CCI{\ovl x - 2.58\dfrac{s}{\sqrt{n}} }{\ovl x + 2.58\dfrac{s}{\sqrt{n}} }$

1. 교과서는 이 충분히 큰 $n$의 기준을 밝히지 않고 있습니다.
2. 표본분산에서 $n$이 아니라 $n-1$로 나누는 것은 일단 `그런가 보다' 하고 받아들입시다.
3. 이는 일반적인 경우에서의 평균과 표준편차를 그대로 가져다 쓴 것입니다.
4. $n$이 충분히 큰 경우는 $n\ge30$일 때이며, $n < 30$인 경우는 함부로 $\ovl X$의 분포를 정규분포로 근사하면 안 됩니다.
5. 원래는 $100$개의 표본평균 으로 만든 $100$개의 신뢰구간 중에서 약 $k$개가 모평균을 포함한다(표본의 크기가 같은 표본을 여러 번 추출하여 신뢰구간을 만들 때, 이 중 $k\%$가 모평균을 포함할 것으로 기대된다).라고 말하는 것이 정확합니다.
6. $n \ge 30$일 때