확률과 통계 > 통계

섹션 1

용어 : $\mrm{E}$, $\mrm{V}$, $\sigma$

확률변수

표본공간 $S$의 각 원소를 실수 전체의 집합 $R$의 한 원소에 대응시키는 함수 $X$를 확률변수라고 합니다. 확률변수 $X$가 어떤 값 $x$를 가질 확률을 $\PR{X=x}$라 표기하고, $X$가 가지는 값과 $X$가 이 값을 가질 확률의 대응 관계를 $X$의 확률분포라 합니다.

이산확률변수

확률변수 $X$가 가지는 값이 유한개이거나 자연수와 같이 셀 수 있을 때¹ 그 확률변수 $X$를 이산확률변수라고 합니다.

확률분포와 확률질량함수

이산확률변수 $X$가 가지는 값 $x_i\:\left( i = 1,\: 2,\: 3,\: \cdots,\: n \right) $와 $X$가 $x_i$를 가질 확률 $p_i$의 대응 관계인 다음의 식이 이산확률변수 $X$의 확률분포입니다. \[\begin{align*} \PR{X=x_i} = p_i \quad\left( i = 1,\: 2,\: 3,\: \cdots,\: n \right) \end{align*}\] 이때 이 대응 관계를 나타내는 함수를 확률질량함수라 합니다.

이산확률변수의 평균, 분산, 표준편차

$x_i\:\left( i = 1,\: 2,\: 3,\: \cdots, n \right) $의 값을 가질 수 있는 이산확률변수 $X$의 대응 관계를 아래와 같이 표로 나타낼 수 있습니다.

$\text{[math]}$

이때 확률의 기본 성질과 평균, 분산, 표준편차의 정의에 의해² 다음이 성립합니다.

$0 \le p_i \le 1\quad\left( i = 1,\: 2,\: 3,\: \cdots, n \right) $
$\sum_{i=1}^{n}p_i = 1$
$\E X = \sum_{i=1}^{n}x_ip_i = m$
$\V X = \E{\left( X-m \right)^2 } = \sum_{i=1}^{n}\left( x_i - m \right)^2 p_i$
$\SIG X = \sqrt{\V X}$

한편 $\sum$의 성질을 이용하면 확률변수 $X$, $0$이 아닌 상수 $a$, 상수 $b$에 대하여 다음이 성립함을 알 수 있습니다.³

$\V X= \E{X^2} - m^2$
$\E{aX+b} = a\E X + b$
$\V{aX+b} = a^2\V X$
$\SIG{aX+b} = \abs a \SIG X$

이항분포

한 번의 시행에서 어떤 사건 $\mrm{A}$가 일어날 확률이 $p$, 일어나지 않을 확률이 $q=1-p$일 때,⁴ $n$번의 독립시행에서 사건 $\mrm{A}$가 일어나는 횟수를 확률변수 $X$라 하면, $X$의 확률질량함수는 독립시행의 확률에 의해 다음과 같습니다. \[\begin{align*} \PR{X=r} = \NCR n r p^r q^{n-r}\quad\left( \text{단, $r$는 $0\le r \le n$인 정수이다.} \right) \end{align*}\] 이와 같은 확률분포를 이항분포라 하고, $\BD np$라 표기하며, 이러한 상황을 확률변수 $X$가 이항분포 $\BD np$를 따른다고 합니다. 우리는 앞으로 이를 간단히 $\color{cyan} X \sim \BD np$라 나타내기로 약속하겠습니다.

독립시행의 확률에서 배웠듯이 $\sum_{r=0}^{n}\PR{X=r} = \sum_{r=0}^{n}\NCR n r p^r q^{n-r} =1$입니다. 한편 이항분포를 따르는 확률변수 $X$에 대하여 $\E X = np$, $\V X = npq$, $\SIG X = \sqrt{npq}$가 성립합니다.

연속확률변수

확률변수 $X$가 가지는 값이 어떤 범위에 속한 모든 실수의 값일 때, $X$를 연속확률변수라 합니다. 예를 들어 $X$가 $1$ 이상 $4$ 이하의 모든 실수의 값을 가질 수 있을 때, $X$는 연속확률변수입니다.

연속확률변수와 이산확률변수의 공통점과 차이점

앞서 언급한 예시에서, 확률변수 $X$가 $1$ 이상 $4$ 이하의 값을 가질 확률인 $\PR{1\le X \le 4}$의 값은 $1$입니다. 즉 연속확률변수도 이산확률변수와 동일하게 $X$가 가질 수 있는 모든 값에 대한 확률을 모두 더한 값은 $1$이다라는 공통점이 있습니다.

그러나 연속확률변수는 특정 실수값을 가질 확률이 $0$이라는 점에서 이산확률변수와 구별됩니다. 예를 들어 $\PR{X=3}=0$, $\PR{X=\sqrt{2}}=0$, $\PR{X=\pi}=0$입니다. 연속확률변수의 확률은 $X$의 값이 특정 범위에 속할 확률일 때에만 비로소 의미를 갖습니다. 예를 들어 $\PR{\sqrt{2} \le X \le \pi}$의 값은 논할 수 있습니다.⁵이산확률변수에서 내포되었던 내용을 이용하면, `어떤 범위에 속한 모든 실수'가 셀 수 없는 무한이기 때문이 아닐까 조심스럽게 추측할 수 있습니다.

확률밀도함수와 확률분포

$\text{[math]}$

$\alpha \le X \le \beta$의 모든 실수의 값을 가지는 연속확률변수 $X$에 대하여 어떤 함수 $y=f\left( x \right) $가 다음 조건을 모두 만족시킬 때, 함수 $f$를 $X$의 확률밀도함수라 합니다.

$\alpha \le x \le \beta$에서 $f\left( x \right) \ge 0$
함수 $f$의 그래프와 $x$축 및 두 직선 $x=\alpha$, $x=\beta$로 둘러싸인 부분의 넓이는 $1$이다.
확률 $\PR{a \le X \le b}$는 함수 $f$의 그래프와 $x$축 및 두 직선 $x=a$, $x=b$로 둘러싸인 부분의 넓이와 같다.⁶①, ②, \hcn3에서는 $\alpha \le a \le b \le \beta$임을 전제하고 있습니다.

이렇게 확률밀도함수 $f$를 이용하여 $X$가 가지는 값의 범위에 속하는 구간에 확률을 대응시키는 것을 연속확률변수 $X$의 확률분포라 합니다.

교과서가 닫힌구간과 정적분을 쓰지 못하는 이유

①, ②, \hcn3을 읽으며 수학 II에서 배운 구간표기법이나 정적분을 쓰면 간단하게 쓸 수 있을 법한 내용들을 대체 왜 문장으로 길게 늘어뜨리는지 의아한 학생들이 있을 것입니다. 이는 확률과 통계 교과서가 수학 II를 배우지 않은 학생들을 대상으로 서술해야 했기 때문입니다. 그러나 우리는 모두 수학 II를 배우므로, 앞으로 이 책에서는 간결한 서술을 위하여 아래와 같이 닫힌구간과 정적분 표기를 사용하도록 합시다.

$\CCI \alpha \beta$에서 $f\left( x \right) \ge 0$
$\int_{\alpha}^{\beta}f\left( x \right) dx = 1$
$\PR{a \le X \le b} = \int_{a}^{b}f\left( x \right) dx$

연속확률변수가 특정 실수의 값을 가질 확률이 $0$인 이유는 정적분으로 설명할 수 있다

확률밀도함수가 $f$인 연속확률변수 $X$가 가질 수 있는 범위에 포함된 임의의 실수 $a$에 대하여 $\PR{X=a} =\int_{a}^{a}f\left( x \right)dx$입니다. 이는 정적분의 성질에 의해 $0$입니다.

정규분포

실수 전체의 집합에서 정의된 연속확률변수 $X$의 확률밀도함수 $f$가 상수 $m$, 양수 $\sigma$와 무리수인 상수 $e=2.718281\cdots$에 대하여 다음과 같을 때, $X$의 확률분포를 정규분포라고 합니다.⁷ \[\begin{align*} {\color{gray}f\left( x \right) = \dfrac{1}{\sqrt{2\pi}\sigma} e\expo{-\tfrac{\left( x-m \right) ^2}{2\sigma^2}}} \end{align*}\] 이때 확률변수 $X$의 평균과 표준편차는 각각 $m$, $\sigma$임이 알려져 있습니다. 평균이 $m$, 표준편차가 $\sigma$인 정규분포를 $\ND{m}{\sigma^2}$라 표기하고, 확률변수 $X$는 정규분포 $\ND{m}{\sigma^2}$을 따른다고 합니다. 우리는 앞으로 이를 간단히 $X \sim \ND{m}{\sigma^2}$이라 나타내기로 합시다.

$X \sim \ND{m}{\sigma^2}$일 때 $X$의 확률밀도함수 $y=f\left( x \right) $의 성질

\kswrapfig[Pos=l, Width=4.5cm]figures/pspic/stat_003{직선 $x=m$에 대하여 대칭인 종 모양의 곡선이며,
$x$축을 점근선으로 하고, $x=m$일 때 최댓값을 갖습니다.⁸ 일부 교과서에서는 이 값이 $\dfrac{1}{\sqrt{2\pi}\sigma}$이라고 언급하고 있습니다. }
\kswrapfig[Pos=l, Width=4.5cm]figures/pspic/stat_004{$\sigma$의 값이 일정할 때 $m$의 값이 달라지면,
대칭축의 위치만 바뀌고 곡선의 모양은 같습니다.⁹이때 두 곡선 $y=f_1\left( x \right) $와 $y=f_2\left( x \right) $의 교점의 $x$좌표를 $a$라 할 때, $a$의 값은 몇이고, 두 곡선은 직선 $x=a$에 대하여 어떤 성질을 가질까요?}
\kswrapfig[Pos=l, Width=4.5cm]figures/pspic/stat_005{$m$의 값이 일정할 때 $\sigma$의 값이 달라지면,
$\sigma$의 값이 커질수록
최댓값이 작아지면서 넓게 퍼지고,
$\sigma$의 값이 작아질수록
최댓값이 커지면서 좁게 모입니다.}
\kswrapfig[Pos=l, Width=5cm]figures/pspic/stat_006{곡선 $y=f\left( x \right) $와 $x$축 사이의 넓이는 $1$이고,
$\PR{X \le m} = \PR{X \ge m} = 0.5$입니다.
또한 $\PR{a \le X \le b} = \int_{a}^{b}f\left( x \right) dx$입니다.}

표준정규분포와 표준화

$Z \sim \ND 01$인 확률변수 $Z$의 확률분포를 표준정규분포라 합니다. 한편, $X \sim \ND{m}{\sigma^2}$인 확률변수 $X$에 대하여 $Z=\dfrac{X-m}{\sigma}$가 성립합니다. 이제 이렇게 확률변수 $X$를 $Z$로 변환하는 과정을 표준화라고 부르기로 합시다.

1. 이 짧은 서술에 내포된 내용이 세 가지 있습니다.
1. 자연수는 유한하지 않다(무한하다).
2. 자연수는 셀 수 있다.
3. 그러므로 셀 수 없는 무한도 있을 것이다.
즉 교과서는 `셀 수 있는 무한'과 `셀 수 없는 무한'의 존재를 넌지시 알려주고 있는 것입니다.
2. 평균, 분산, 표준편차의 정의와 그에 대한 설명은 다음 챕터에 나옵니다. 일단은 공식만 익히도록 합시다.
3. ①은 원래 \[\begin{align*} \E{X^2} - \left\{ \E{X} \right\} ^2 \end{align*}\] 이지만, 가독성을 높이도록 뒤의 $\E X$를 $m$으로 대체하였습니다.
4. 앞으로 이항분포를 논할 때 $p+q=1$임은 매번 언급하지 않아도 기본적으로 전제하도록 합시다.
5. 이산확률변수에서 내포되었던 내용을 이용하면, `어떤 범위에 속한 모든 실수'가 셀 수 없는 무한이기 때문이 아닐까 조심스럽게 추측할 수 있습니다.
6. ①, ②, \hcn3에서는 $\alpha \le a \le b \le \beta$임을 전제하고 있습니다.
7. 본문에서 함수식을 회색으로 처리한 이유는 대부분의 문제에서 이 함수식 자체를 중요하게 여기지 않아서입니다. 단지 교과서에서 제시하는 식이기 때문에 기재한 것입니다.
8. 일부 교과서에서는 이 값이 $\dfrac{1}{\sqrt{2\pi}\sigma}$이라고 언급하고 있습니다.
9. 이때 두 곡선 $y=f_1\left( x \right) $와 $y=f_2\left( x \right) $의 교점의 $x$좌표를 $a$라 할 때, $a$의 값은 몇이고, 두 곡선은 직선 $x=a$에 대하여 어떤 성질을 가질까요?