확률과 통계 > 통계

원리 : 통계 기초, 이산확률변수, 연속확률변수

통계는 깊은 이해가 필요한 단원이 아닙니다. 수능에서도 통계 개념과 그 유도 과정에 대한 깊은 이해를 요구하지 않습니다. 따라서 우리는 이번 챕터에서 수능 통계를 쉽고 빠르게 다 맞기 위해 문제풀이에 필요한 사고만 컴팩트하게 정리할 것입니다. 수식으로 증명하는 과정이 생략된 것에 대해 크게 의문을 품지 않는 것이 좋습니다.

우리에게 익숙한 평균

우리에게 익숙한 평균 이야기를 먼저 해봅시다. 선경, 홍규, 남호의 국영수사과 성적이 각각 다음과 같다고 해봅시다.

$\text{[math]}$

세 명의 성적의 평균을 구하면 각각 다음과 같습니다. \[\begin{alignat*}{2} \left( \text{선경의 성적의 평균} \right) &= \:\:\dfrac{80 + 90 + 80 + 70 + 80 }{5} &&= 80\\ \left( \text{홍규의 성적의 평균} \right) &= \dfrac{100 + 60 + 80 + 100 + 60}{5} &&= 80\\ \left( \text{남호의 성적의 평균} \right) &= \:\:\dfrac{80 + 80 + 80 + 80 + 80 }{5} &&= 80 \end{alignat*}\] 우리가 익숙한 평균은 이런 평균입니다. 이제 우리는 확률변수(그 중 이산확률변수)가 무엇인지, 우리가 알던 평균이 이산확률변수의 평균과 어떻게 이어지는지 알아볼 것입니다.

평균을 확률변수로 보는 관점

확률변수 : 무슨 상황이든 확률로 바라본다

관점을 약간 비틀어서, 각 학생의 과목중 임의로 하나를 골랐을 때, 그 과목의 점수가 몇일 확률이 어떤지를 살펴봅시다.

선경 : $70$점이 나올 확률은 $\dfrac{1}{5}$, $80$점이 나올 확률은 $\dfrac{3}{5}$, $90$점이 나올 확률은 $\dfrac{1}{5}$입니다.
홍규 : $60$점이 나올 확률은 $\dfrac{2}{5}$, $80$점이 나올 확률은 $\dfrac{1}{5}$, $100$점이 나올 확률은 $\dfrac{2}{5}$입니다.
남호 : $80$점이 나올 확률은 $\dfrac{5}{5}=1$입니다.

이때 선경의 과목 중 임의로 하나를 선택할 때, 선택한 과목의 성적을 $X$라 하면 $X$가 가질 수 있는 값은 $70$, $80$, $90$이며, $X$와 $X$가 특정한 값 $x$를 가질 확률인 $\PR{X=x}$ ($x=70,\:80,\:90$)가 대응됩니다. 이를 표로 나타내면 다음과 같습니다.

$\text{[math]}$

이처럼 $X$가 여러 값을 가질 수 있는 변수이고, $X$가 특정한 값을 가질 확률이 대응될 때, $X$를 (이산)확률변수라고 하며, 위와 같은 표를 통하여 확률변수 $X$의 확률분포를 알 수 있습니다. 이처럼 확률과는 무관해보이는 상황들도 임의로 선택하는 상황을 설정하면 확률변수로 바라볼 수 있습니다.

이산확률변수의 평균(기댓값)

그렇다면 확률변수 $X$의 평균 $\E X= m_1$에 대하여 왜 $m_1=\sum_{i=1}^{n}x_i p_i$이 성립할까요? 우리는 앞서 $\left( \text{선경의 성적의 평균} \right) = \dfrac{80 + 90 + 80 + 70 + 80 }{5} = 80$이라는 식으로 평균을 구했습니다. 이 익숙한 수식을 변형하여 표의 구성 요소로 등장하는 수들이 나타나도록 변형하면 다음과 같습니다. \[\begin{align*} \dfrac{80 + 90 + 80 + 70 + 80 }{5} &= \dfrac{70\times1 + 80\times3 + 90 \times 1}{5}\\ &= \left( 70\times\dfrac{1}{5} \right) + \left( 80\times\dfrac{3}{5} \right) +\left( 90\times\dfrac{1}{5} \right)\\ &= 80 \end{align*}\]

$\text{[math]}$

이는 표에서 `각각의 값'과 `각각의 값이 나올 확률'을 서로 곱한 것, 즉 표에서 세로로 적힌 값들을 서로 곱한 후, 그 값들을 서로 더한 것과 같음을 알 수 있으며, $\sum_{i=1}^{n}x_i p_i$의 의미와 정확히 일치합니다.

마찬가지로 홍규의 과목 중 임의로 하나를 선택할 때, 선택한 과목의 점수를 확률변수 $Y$라 하고, 남호의 과목 중 임의로 하나를 선택할 때, 선택한 과목의 점수를 $Z$라 하면, $Y$와 $Z$의 확률분포를 표로 나타내고 $ \E Y=m_2$와 $\E Z =m_3$를 계산하면 다음과 같습니다.

$\text{[math]}$

\[\begin{align*} \E Y &= \left( 60\times\dfrac{2}{5} \right) +\left( 80\times\dfrac{1}{5} \right) +\left( 100\times\dfrac{2}{5} \right) =80 \\ \E Z &= 80\times 1 = 80 \end{align*}\] 한편 확률변수의 관점에서는 평균을 기댓값(Expectation)이라는 용어로도 부릅니다.¹ 이는 `$1$회 시행하면 대략 결괏값이 어느 정도라고 기대할 수 있는가'를 의미하는 것이지요. 그리고 지금까지 알아본 바와 같이, 기댓값은 우리가 알고 있던 평균과 동일한 개념입니다.

분산과 표준편차

평균은 많은 정보를 알려주지만, 모든 정보를 알려주지는 못한다

지금까지 살펴본 세 명의 성적의 평균은 $80$점으로 동일합니다. 그러나 여러분도 아시다시피, 분명히 세 명의 평균이 같기는 하지만, 세 명의 특성이 동일하다고 말하기에는 뭔가 망설여집니다.

이는 평균이라는 도구가 분명히 무언가 큰 의미²평균은 자료 전체의 특징을 하나의 수로 나타낸다는 의미를 갖습니다. 이러한 역할을 하는 값을 대푯값이라고 합니다. 우리는 중학교에서 평균뿐만이 아니라 중앙값, 최빈값 등의 대푯값을 배웠습니다. 그러나 수능에서는 평균만 알면 됩니다.를 나타내기는 하지만, 평균이라는 도구만으로는 담아내지 못하는 `보이지 않는 무언가'가 있다는 것을 의미합니다. 그것은 각 과목 성적의 분포 양상입니다.

홍규는 각 과목별 성적이 들쭉날쭉하므로, 평균점수에 비해 멀리 떨어진 값들($100$, $60$)이 나타납니다. 그에 반해 선경이는 각 과목별 성적이 평균점수에 비해 멀리 떨어진 정도가 홍규보다는 덜합니다. 남호는 모든 점수가 평균점수와 동일합니다.³이러한 선경, 홍규, 남호의 성적 분포 양상을 비교할 때 쓰이는 표현이 있습니다. 남호의 점수가 선경의 점수보다, 선경의 점수가 홍규의 점수보다 비교적 고르게 분포되어 있다고 하는 것이죠. 여기서 고르게 분포의 의미를 `여러 가지 점수가 골고루 나온다'고 오해하기 쉬운데, 고르게 분포되었다는 것은 각각의 값들이 서로 비슷하다는 의미입니다. 따라서 평균이 드러내지 못하는 `보이지 않는 무언가', 즉 각 값들이 평균으로부터 얼마나 떨어져 있는가를 수치화할 수 있는 도구가 필요합니다. 그것이 바로 분산과 표준편차입니다.

편차 : 얼마나 퍼졌는지 대강은 알 수 있지만, 평균적인 추세는 알 수 없는 불완전한 개념

분산과 표준편차를 공부하기 전, 편차라는 개념을 알 필요가 있습니다. 편차는 다음과 같이 정의됩니다. $$\left( 편차 \right) = \left( \text{항목의 값} \right) - \left( 평균 \right) $$ 편차를 이용하면 각 값들이 평균으로부터 얼마나 떨어져 있는지가 눈에 띌 것입니다. 선경, 홍규, 남호의 편차를 구해보면 각각 다음과 같습니다.

$\text{[math]}$

그럼 이제 이 편차의 분포를 이용하면 각 값들이 평균으로부터 떨어진 정도가 대략 어느 정도 되는지를 구할 수 있을 것입니다. 이럴 때 유용한 것이 바로 평균입니다. 즉 편차의 평균인 $\E{편차}$를 구해보려는 것이지요.

그러나 안타깝게도 선경이든 홍규든 남호든 관계없이 모든 경우에서 편차를 모두 더하면 $0$입니다. 이 상황 뿐만 아니라 모든 확률분포에서 편차의 평균인 $\E{편차}$은 항상 $0$입니다.⁴$\sum$의 성질과 편차의 정의를 통해 다음과 같이 계산됩니다.
$\begin{aligned} \sum_{i=1}^5 편차 &=\sum_{i=1}^5 \left( x_i - m \right)\quad\\ &=\sum_{i=1}^5 x_i - \sum_{i=1}^5 m \\ &=5m - 5m\\ &=0 \end{aligned}$

이렇게 편차의 평균으로는 `각 항목들이 개략적으로 얼마나 퍼져있는가'를 나타낼 수 없습니다. 따라서 편차가 가진 의미는 살리면서도, 각 항목들의 평균적인 분포 추세⁵이는 중학교 때 배운 산포도입니다. 산포도는 각각의 값들이 얼마나 흩어져 있는지 그 정도를 하나의 수로 나타낸 값을 뜻합니다.를 구할 수 있는 대안이 필요합니다.

분산 : 제곱을 이용하여 편차가 음숫값을 갖지 않도록 한다

편차의 합과 평균이 항상 $0$인 이유는 (남호의 경우와 같이 정말 모든 값이 동일하여 모든 편차값이 $0$인 경우를 제외하고는) 편차의 값 중 음수인 값이 나타나기 때문입니다. 따라서 음수가 나오지 않도록 편차의 값을 적절히 조작해야 합니다. 마이너스 부호를 없애는 방법은 제곱, 절댓값을 비롯하여 여러 가지가 있지만, 우리는 그 중에서 제곱을 택하겠습니다.⁶ 각각의 편차를 제곱한 값을 구하면 다음과 같습니다.

$\text{[math]}$

이제 `편차의 제곱'의 평균을 구하면 각각 다음과 같습니다. \[\begin{alignat*}{2} 선경 &: \quad\dfrac{0+100+0+100+0}{5} &&= 40\\ 홍규 &: \dfrac{400+400+0+400+400}{5} &&= 320\\ 남호 &: \qquad\dfrac{0+0+0+0+0}{5} &&= 0\\ \end{alignat*}\]

`편차의 제곱'을 확률변수로 보더라도 같은 결과를 얻습니다. 선경, 홍규, 남호의 `성적의 편차의 제곱'을 각각 확률변수 $A$, $B$, $C$라 하고, 선경, 홍규, 남호의 `성적의 제곱'인 세 확률변수 $X^2$, $Y^2$, $Z^2$에 대하여 다음을 알아봅시다.

$A$, $B$, $C$의 확률분포를 나타낸 표와 각각의 평균인 $\E A$, $\E B$, $\E C$
$X^2$, $Y^2$, $Z^2$의 확률분포를 나타낸 표와 각각의 평균인 $\E {X^2}$, $\E {Y^2}$, $\E {Z^2}$
$A$와 $X$ 사이의 관계, $B$와 $Y$ 사이의 관계, $C$와 $Z$ 사이의 관계
$\V X$, $\E A$, $\E {X^2}$ 사이의 관계
$\V Y$, $\E B$, $\E {Y^2}$ 사이의 관계
$\V Z$, $\E C$, $\E {Z^2}$ 사이의 관계

$\text{[math]}$

\[\begin{alignat*}{3} A&= \left( X-m_1 \right)^2,\qquad\qquad B&&=\left( Y-m_2 \right)^2, \quad\qquad\:\: C&&=\left( Z-m_3 \right)^2 \\[-0.3\blskip] \V X&= \E A=\E {\left( X - m_1 \right)^2 } &&= \cdots = \E{X^2} - \left( m_1 \right) ^2 &&= 6440 - 6400 = 40\\[-0.3\blskip] \V Y &=\E B= \E {\left( Y - m_2 \right)^2 } &&= \cdots = \E{Y^2} - \left( m_2 \right) ^2 &&= 6720 - 6400 = 320\\[-0.3\blskip] \V Z &= \E C= \E {\left( Z - m_3 \right)^2 } &&= \cdots = \E{Z^2} - \left( m_3 \right) ^2 &&= 6400 - 6400 = 0 \end{alignat*}\] 이와 같이 $편차^2$의 평균, 다시 말해 $\E{편차^2}$을 분산이라 합니다. 분산을 계산할 때에는 정의에 따라 정직하게 구하기보다는, 위 수식에서 $\cdots$로 생략된 유도과정⁷을 통해 얻어지는 가장 오른쪽 변의 식을 이용하여 구합니다.

이 여러 과정을 거쳐 계산해낸 분산의 의미를 살펴봅시다. 분산의 개념을 이용하면 우리가 개략적으로 느꼈던 다음의 개념을 명확한 수치로 나타낼 수 있습니다.

홍규의 점수는 들쭉날쭉하고,
선경이는 홍규보다는 덜하지만 점수가 퍼져 있기는 하고,
남호는 모든 점수가 전혀 퍼져 있지 않고 같은 값을 갖는다

이를 분산으로 나타내면, `홍규 점수의 분산은 $320$, 선경이 점수의 분산은 $40$, 남호 점수의 분산은 $0$'입니다.

표준편차 : 제곱으로 인한 과장된 값을 루트를 씌워 보정하고, 단위를 맞춘다.

분산을 통해 각각의 확률변수의 분포가 어떤지를 수치로 나타낼 수 있었지만, 계산 과정에서 제곱이 쓰이다보니 그 값이 원래 다루던 값들에 비해 과장되는 면이 있습니다. 또한 분산을 구하는 과정에서 제곱이 사용되어 단위가 달라진 상태입니다.⁸

이렇게 제곱으로 인한 과장을 보정함과 동시에 단위를 맞추어주기 위한 목적으로 분산에 루트를 씌운 값을 표준편차라 합니다. 홍규의 표준편차는 $17.88\cdots$, 선경의 표준편차는 $6.32\cdots$, 남호의 표준편차는 $0$이므로, 분산을 비교할 때보다는 값들이 작아져서 다루기 편하고, 원래의 데이터와 단위가 동일하여 다루기 편리합니다.⁹사실 표준편차는 이산확률분포에서 존재감이 별로 없습니다. 그러나 연속확률분포, 그 중에서도 정규분포에서 매우 중요한 역할을 하며, 이후 통계적 추정에서도 아주 중요한 역할을 할 것입니다.

$aX+b$의 평균, 분산, 표준편차

$\E {aX + b } = a\E X + b$는 $\sum$의 성질로 쉽게 증명할 수 있고, $\V {aX + b} = a^2 \V {X}$는 $\V X = \E{X^2 } - m^2$으로 쉽게 증명할 수 있고, $\SIG {aX+b} =\abs a \SIG X$는 정의에 의해 자명합니다. 이 수식이 무엇을 의미하는지 선경, 홍규, 남호의 성적에 $a$와 $b$의 값을 구체적으로 넣어 직접 계산해보는 것도 좋습니다.

이항분포 : 표도 그리지 않고, 증명도 필요 없는 특수한 이산확률분포

지금까지 알아본 바와 같이, 이산확률변수는 주로 표를 그려 해결합니다. 표를 그려야 평균, 분산, 표준편차를 구할 수 있기 때문입니다. 그런데 표를 그리지 않는 특이한 이산확률분포가 있습니다. 바로 이항분포입니다.

한 번의 어떤 사건 $A$가 일어날 확률이 $p$, 일어나지 않을 확률이 $q$일 때, $n$번의 독립시행에서 사건 $A$가 몇 번 일어났는지를 확률변수로 $X$라 하면, 직관적으로 $\E X = np$임을 알 수 있습니다. 또한 $\V X = npq$, $\SIG X = \sqrt{npq}$임을 증명 없이 받아들입시다.

어떤 이항분포는 표나 확률질랑햠수를 줍니다!

$\text{[math]}$

비록 이항분포의 확률분포를 표로 잘 나타내지 않는다고 하더라도, 이항분포 또한 태생이 이산확률분포임을 잊지 말아야 합니다. 따라서 위와 같은 표나 $\PR{X=x}=\NCR nx p^x q^{n-x}$와 같은 확률질량함수를 이용하여 $X \sim \BD np$라는 정보를 간접적으로 제시할 수 있습니다.

$n$이 충분히 크면 $X \sim \BD np$인 $X$는 근사적으로 $X \sim \ND{np}{npq}$이다.

$n$이 충분히 큰 경우¹⁰ 이항분포 대신 정규분포를 이용하여 쉽게 계산할 수 있음이 알려져 있습니다.

일반적인 연속확률변수

연속확률변수는 단 한 페이지만으로 수능에 필요한 모든 내용을 끝낼 수 있습니다. 일반적인 연속확률변수는 확률밀도함수의 구간을 정적분한 값이 확률값이고, 정의역 전체 구간을 정적분한 값은 $1$이라는 사실만 알면 됩니다. 현 교육과정 내에서 일반적인 연속확률변수에 대하여 물어볼 수 있는 것은 이게 전부입니다.

정규분포 : 정적분도 하지 않고, 증명도 없는 특수한 연속확률분포

정규분포는 십중팔구 간단히 풀리는 일반적인 문제가 출제됩니다. 그런데 이는 달리 말하면 변칙적인 문제도 출제된다는 것입니다. 따라서 먼저 일반적인 문제에 대한 해법을 간단히 정리한 후, 변칙적인 문제에 대처하는 방법을 배워봅시다.

일반적인 문제 : 그냥 표준화하자

대부분의 학생들이 풀어왔듯이, 모든 정규분포를 $Z=\dfrac{X-m}{\sigma}$로 표준화하여 풀면 풀립니다.

변칙적인 문제 : 별 걸 다 물어본다

기출문제집에서 정규분포 문제 중 변칙적인 문제만 골라 찾아보면 생각지도 못하게 다양한 상황들을 접목하여 문제화시킨다는 것을 느낄 수 있을 것입니다. 따라서 정규분포 문제가 항상 쉽게 풀리지 않을 수도 있음을 유의하기 바랍니다.

정규분포의 성질을 숙지하자

정규분포의 대칭성, 증감성, 점근선을 숙지해야 합니다. $Z \sim \ND 01$인 확률변수 $Z$의 확률밀도함수 $f$와 $a<b$인 두 양수 $a$, $b$에 대하여 다음이 성립합니다. \[\begin{align*} \PR{0\le Z \le a} = \PR{-a\le Z \le 0}, \quad f\left( a \right) =f\left( -a \right),\quad f\left( a \right) > f\left( b \right) \end{align*}\] 평소에는 당연하게 느껴지는 성질이지만, 문제화되었을 때 이 기본 개념들을 물어볼 수 있습니다.

중학수학, 고등수학, 수학 I, 수학 II와 연계될 수 있다

정규분포 자체만으로는 어렵게 출제되기가 힘들다보니 다른 단원과의 연계를 통해 난이도 향상을 꾀할 수 있습니다. 정규분포 문제에 타 단원을 접목하여 특이하고 생소한 표현이 나올 수 있음을 잊지 말아야 합니다.

1. 이 영단어의 맨 앞글자를 따 평균을 표기하는 것입니다.
2. 평균은 자료 전체의 특징을 하나의 수로 나타낸다는 의미를 갖습니다. 이러한 역할을 하는 값을 대푯값이라고 합니다. 우리는 중학교에서 평균뿐만이 아니라 중앙값, 최빈값 등의 대푯값을 배웠습니다. 그러나 수능에서는 평균만 알면 됩니다.
3. 이러한 선경, 홍규, 남호의 성적 분포 양상을 비교할 때 쓰이는 표현이 있습니다. 남호의 점수가 선경의 점수보다, 선경의 점수가 홍규의 점수보다 비교적 고르게 분포되어 있다고 하는 것이죠. 여기서 고르게 분포의 의미를 `여러 가지 점수가 골고루 나온다'고 오해하기 쉬운데, 고르게 분포되었다는 것은 각각의 값들이 서로 비슷하다는 의미입니다.
4. $\sum$의 성질과 편차의 정의를 통해 다음과 같이 계산됩니다.
$\begin{aligned} \sum_{i=1}^5 편차 &=\sum_{i=1}^5 \left( x_i - m \right)\quad\\ &=\sum_{i=1}^5 x_i - \sum_{i=1}^5 m \\ &=5m - 5m\\ &=0 \end{aligned}$
5. 이는 중학교 때 배운 산포도입니다. 산포도는 각각의 값들이 얼마나 흩어져 있는지 그 정도를 하나의 수로 나타낸 값을 뜻합니다.
6. 이는 우리가 배우지 않는 평균의 또다른 정의인 `전체 데이터와 최소제곱이 되도록 하는 값'과 관련이 있습니다. 이에 대해 관심이 있다면 최소제곱법 등으로 검색하여 공부하시기 바랍니다.
7. 생략된 부분은 $\sum$, 평균(기댓값), 편차, 분산의 정의와 성질에 따른 단순 계산에 불과하므로 직접 유도해볼 필요는 없습니다. 머릿속으로 암산해보시거나, 암산이 어렵다면 교과서의 유도 과정을 눈으로 따라가보는 것만으로도 충분합니다.
8. 각 학생들의 과목별 점수, 각 학생의 평균 점수, 각 학생의 과목별 편차의 단위를 `길이'로 생각하면, 분산의 단위는 `넓이'가 된다고 재해석할 수 있습니다. 그러면 `편차의 제곱'은 사각형(square)의 넓이가 되고, 편차의 제곱의 평균인 `분산'은 `여러 사각형의 넓이의 평균'이 됩니다. 이러한 재해석과 관련하여, `사각형(square)의 넓이의 합을 최소로(least) 만들어주는 값'이 평균임이 알려져 있습니다. 이것을 이용하여 평균을 구하거나 평균의 근삿값을 구하는 기법이 최소제곱법(least square method)입니다.
9. 사실 표준편차는 이산확률분포에서 존재감이 별로 없습니다. 그러나 연속확률분포, 그 중에서도 정규분포에서 매우 중요한 역할을 하며, 이후 통계적 추정에서도 아주 중요한 역할을 할 것입니다.
10. $np \ge 5$, $nq \ge 5$인 경우