-
평균(=기댓값), 도수분포표가 확률분포표가 되는 과정카테고리 없음 2022. 9. 1. 13:57
평균(=기댓값), 도수분포표가 확률분포표가 되는 과정
이제 평균(=기댓값)에 대해 이야기해도록 하자. 평균은 표준편차를 구하기 위한 첫단계이다. 일단 편차를 구하려면 ‘편차 = (변수—평균)’ 이므로 평균값이 전제되어야 하기 때문이다. 평균을 기댓값이라고도 부른다. 둘은 같은 개념이라고 보면 된다.
별다른 말이 없으면 평균이란 우리가 익히 알고 있는 평균과 같다.
가령, 어떤 학생이 국어 70점, 수학 85점, 영어 60점을 받았다고 하자. 이 학생이 받은 세 과목 점수의 평균은 어떻게 계산할까? 일단 모든 점수를 합한 다음, 과목의 수로 나눌 것이다.
평균을 구하는 식을 가만히 살펴보면,
의 구조를 가지고 분자에는 ‘개별값들을 + 더하고’,
분모에는 ‘개별값들의 개수’ 가 들어감을 알 수 있다.
이러한 내용은 중학교 과정에서 배운 바 있다. 바로 ‘도수분포표’라는 개념이다.
‘도수’는 ‘빈도수’를 줄인 말로 생각하면 된다. ‘빈도’라는 뜻의 frequency의 앞글자를 따서 f1, f2, f3, ⋯, fn으로 표현하기도 한다.
지금부터는 중학교 과정에서 배운 ‘도수분포표’가 ‘확률분포표’로 바뀌는 과정에 대해서 이야기하고자 한다. 예시로써 20명의 영어성적을 가져와보겠다. 문제당 배점이 5점이라면,
20명의 영어성적의 ‘평균’은 어떻게 구할까? 잘 알다시피 모든 점수를 더하고, 20으로 나누면 된다.
식을 쓰다보니 분자의 길이가 무척 길다는 것을 알 수 있다.
분자의 길이를 줄일 수 있는 방법이 무엇일까?
같은 수의 덧셈을 곱셈으로 바꾸는 것이다. (ex 70 + 70 + 70 + 70 = 70 × 4)
위 식처럼 50점은 3명, 60점은 2명, 70점은 4명 등 같은 점수끼리 묶는 것을 표로 나타내는 것이 바로 ‘도수분포표’이다. ‘도수’는 ‘빈도수(=횟수)’라 보면 된다. (빈)도수분포표는 같은 계급끼리 빈도를 나타낸 것이다. 가령 50×3은 50이 3번이라는 빈도를 나타낸 것이고 60×2는 60이 2번이라는 빈도를 나타낸 것이다. 위 식을 도수분포표로 나타내면 다음과 같다. 일단 1명이라도 나왔던 모든 계급값을 나열하고 아래에는 빈도수를 적는다.
(빈)도수분포표는 각각의 계급에 (빈)도수를 적으면서 많은 양의 자료를 정리하는데 도움을 준다. 뿐만 아니라 ‘평균’을 계산하는 데에도 편리함을 준다.
도수분포표를 보고 평균을 계산해보자.
여기까지가 중학교 교과과정에서 배운 ‘도수분포표’의 내용이다.
고등학교 교과과정에서 배우게 되는 통계는 이러한 ‘도수분포표’를 확률의 관점으로 바라보게 된다. 위 도수분포표를 확률에 대한 이야기로 바라보자.
20명의 학생들의 영어점수를 보고 ‘70점이 나올 확률’을 구해보자.
이런 방식으로 각 계급들의 확률을 표에 추가로 나타낼 수 있다.
이 표를 이용하여 다시 평균을 구해보자.
평균은 도수분포표로 구하는 방법이 기본이다.
이 식을 이렇게도 나타낼 수 있다. 하나의 분수식을 여러 개로 분리시키는 것이다.
위와 같이 식을 나타내면 도수분포표로 평균을 구했던 식인
으로 바뀐다는 것을 확인할 수 있다. 평균값은 동일하지만 ‘확률’이라는 개념으로 평균을 구할 수도 있다는 것이 중요 포인트다.
이 둘을 비교해보면 다음과 같다.
정리하자면, 도수분포표의 (빈)도수를 (빈)도수의 총합으로 나누어 ‘각각의 확률’로 나타낸 것이 ‘확률분포표’라는 것을 알 수 있다.
여기서 강조하고자 하는 것이 바로 ‘통계’에서 표를 다루는 형식이 ‘도수분포표’가 아닌 ‘확률분포표’라는 것에 있다. 통계에서는 확률이 주요개념이므로 ‘확률분포표’로 나타낸다.
이제 이 둘이 가진 특징이 무엇인지 알았으니 처음 소개했던 사례를 가지고 다시 비교해보기로 하자. 이렇게 비교하는 이유는 ‘확률분포표’를 가지고 ‘평균’을 구하는 방법이 왜
[각 계급 × 각 확률]의 총합
인지 단순히 암기하는 것이 아니라 당연한 공식임을 직접 확인할 필요가 있기 때문이다.
앞서 동전을 번 던져서 앞면이 나오는 횟수를 확률변수 X라고 한다는 예시를 ‘도수분포표’와 ‘확률분포표’로 나타내고 평균을 구하는 과정을 비교해보자.
동전을 3번 던져서 앞면이 나오는 횟수를 경우의 수로 나타내면 0회, 1회, 2회, 3회가 있다. 이를 확률변수 X로 정의하자.
도수분포표로 평균을 구하면
확률분포표로 평균을 구하면
결과는 같다. 이로써 ‘확률분포’에서 평균(=기댓값)을 구하는 공식을 이해할 수 있게 된다.
통계파트는
순서로 대부분의 계산이 이루어지기 때문에 ‘평균’을 구하는 과정이 무엇보다 중요하다.