-
분산과 표준편차를 왜 알아야 하는가? 분산을 구할 때 편차를 제곱하는 이유카테고리 없음 2022. 9. 1. 14:07
https://play.google.com/store/apps/details?id=com.clicker.smartnfast&hl=en-KR
분산과 표준편차를 왜 알아야 하는가? 분산을 구할 때 편차를 제곱하는 이유확률분포표에서 평균(=기댓값)을 구했다면, 이로써 분산과 표준편차를 구할 수 있게 된다. 분산을 구하는 식에는 반드시 평균이 들어가기 때문에 언제나 ‘평균’을 구해야 한다는 것을 염두해두자.
‘분산’을 왜 구해야할까? 표준편차를 구하기 위해서이다.
분산만 알면 표준편차값을 쉽게 구할 수 있다. 통계에서 평균과 표준편차라는 2개의 값을 찾을 수 있다면 거의 모든 문제를 해결하는 key가 되기 때문에 평균, 표준편차를 구하는 과정을 꼼꼼하게 알 필요가 있다. 분산을 구하는 것은 동시에 표준편차를 구하는 과정임을 다시 상기하며 ‘분산’을 구하는 이야기를 시작해보기로 한다.
분산의 사전적 의미는 말그대로 ‘어떤 대상으로부터 흩어진 정도’이다. 여기서 어떤 대상이란 바로 ‘평균’을 뜻한다.
다음 그림을 보면,
C는 평균에 딱 붙어 있음에 반해 A, B는 평균으로부터 떨어져있는데 흩어졌다고 표현하는 것이 분산이다.
‘편차’란 변량과 평균이 떨어진 정도를 나타내며, 정확한 정의는
편자=변량-평균
이다. 주의할 점은 변량에서 평균을 뺀다는 것이다. 변량이 앞에 오고 평균이 뒤에 와야 한다.
m= 60, A= 70, B= 40 이라 하면,
편차는 (변량-평균)이므로 A의 편차는 (70-60)=10이고, B의 편차는 (40-60)=-20이 된다. 이 2개의 값으로 분산을 구해보자.
분산이란
분산=(편차를 각각 제곱한 값들)의 평균
이다. 그렇다면 위의 경우
분산은 250이 된다. 더 나아가 표준편차를 구해보자.
이므로
이다.
이렇듯 표준편차를 구하는 순서는
평균→편차→분산→표준편차
이 문제의 경우에는 평균(m)의 값이 미리 60으로 주어져있지만, 그렇지 않은 경우에는 평균값을 먼저 구해야 한다.
그렇다면 여기서 질문을 하나 해보자. 분산을 구하는 공식을 보면
분산=(편차를 각각 제곱한 값들)의 평균
인데 흩어진 정도를 나타내는 분산에 있어서 왜 제곱을 할까?
제곱을 하지 않으면 어떤 일이 생길까?
만약, 분산의 정의가 단지 편차의 평균이라면 제곱을 하지 않고 그저 편차만으로 평균을 만들 수 있다.
일단 육안으로 보면 분산값은 ①>②이다. 흩어진 정도가 ①이 더 크기 때문이다.
그런데 만일 단순히 분산을 ‘편차의 평균’이라고 한다면(잘못된 정의이지만)
왼쪽은
이고 오른쪽은
이므로
오히려 오른쪽 그림의 분산값이 큰 결과가 나오게 된다. 분산의 느낌대로 본다면 명백히 흩어진 정도가 왼쪽이 크다. 따라서 편차들의 평균으로 분산을 계산하지 않는다.
그렇다면 ‘거리’ 개념을 도입하여 ‘의 평균’으로 하면 어떨까?
왼쪽
그림은 , 오른쪽 그림은
이므로 왼쪽이 큰 결과가 나온다. 그렇다면 이 값을 ‘분산’으로 활용할 수 있을 것이다. 단, 절댓값 부호가 산술에 있어 불편함을 가져온다. 가령 편차의 값들이 ‘숫자’가 아닌 ‘문자’일 경우 문자의 ‘음과 음이 아닌’경우를 나누어 살펴보아야 하는 문제가 발생한다. 필연적으로 절댓값 부호 속에 들어있는 어떤 문자라도 ‘그것이 음수인가’를 들여다보아야 하는 번거로움이 있는 것이다.
따라서 정확도는 다소 떨어지지만 절댓값 부호를 사용하는 것에 ‘버금가는’ 다른 방법을 사용한다. 그것이 ‘제곱’이다.
분산이라는 값을 구할 때 편차들을 제곱하게 되면 편차가 1보다 클 경우 실제보다 평균으로부터 떨어진 크기가 증폭되고 1보다 작을 경우 실제보다 축소된다.
이들을 평균을 분산이라고 가정할 때, 편차의 절댓값의 총합을 2로 나눈 평균의 경우 따로 표준편차를 구하지 않아도 그것을 그대로 표준편차라고 볼 수 있다. 하지만 실제로 이렇게 구하지 않는다. 그 이유는 앞서 말한바와 같이 ‘산술의 불편함’ 때문이다. 절댓값 부호는 ‘그 내부가 음수인지 들여다보아야 함’이라는 하나의 약속이 있기 때문에 번거롭다.
따라서 음수인 편차를 ‘거리’개념인 절댓값부호에 버금가도록 하는 편차의 제곱을 사용한다. 단, 편차의 제곱의 총합을 2로 나눈 평균의 경우는 전체적인 편차를 나타내는 값으로 곧바로 쓰기에는 왜곡이 심하다. 즉 제곱은 먼 거리를 더 멀리, 가까운 거리를 더 가까이 보이게 만들기 때문이다. 따라서 편차의 제곱을 총합한 것의 평균인 분산은 곧바로 표준편차로 사용할 수 없다. 대신 이 분산을 사용하되 편차들을 제곱했으니 제곱의 반대인 루트(√)를 씌워서 제곱으로 발생한 왜곡을 최소화하는 것을 표준편차로 사용하는 것이다. 결국 표준편차는 모든 편차값들의 대푯값이다.
편차는 어떤 값(변량)이 평균으로부터 얼만큼 떨어져있는지를 나타내는 것이고, 편차는 변량마다 존재한다. 그렇다면 n개의 편차들을 보면서 ‘전체적으로 평균으로부터 얼마나 떨어져있는가’에 대한 답이 ‘표준편차’인 것이다
일단 육안으로 봐도 평균으로부터 떨어진 정도(산포도)가 가장 큰 것이 가장 오른쪽 그림이다. 산포도를 나타내는 방법 중, 분산은 각각의 편차를 나타내는 점들을 제곱한 평균이고 그 값의 제곱근인 표준편차도 가장 오른쪽 그림이 큰 것이다.
우리는 왜 표준편차를 알아야 하는가? 처음 든 예시인 수능 국어영역 점수가 85점인 경우처럼 평균 점수만 가지고는 좀 더 정확히 얼마나 시험을 잘 본 것인지 알 수 없기 때문이다.
같은 85점이라도 평균에 몰려있는(=표준편차가 작은) 경우 1등급이 나올 수 있고, 평균에 몰려있지 않은(=표준편차가 큰) 경우 3등급이 나올 수도 있는 것이다. 이것이 표준편차의 역할인 것이다.
표준편차를 구하려면 필연적으로 ‘분산’을 구해야 한다. 분산은 표준편차를 구하기 위한 징검다리이다.
다시 분산의 정의를 문장으로 나타내보자.
분산 : 편차들의 제곱을 평균한 값
분산을 영어로 Variance라고 부르고 앞 글자 V를 따와서 V(X)라고 표현한다. X는 확률변수이다.
분산값을 구하기 위해서는 반드시 ‘평균’을 먼저 구해야 한다. 왜냐하면 분산을 구하기 위해 편차들을 제곱해야 하는데, 각각의 편차는 (변량-평균)이므로 ‘평균’을 알아야 편차도 구할 수 있기 때문이다.
이제 실전에 이용해보자.
자주 사용하는 예시를 들어서 설명하겠다.
동전을 3번 던져서 앞면이 나오는 횟수를 확률변수 X 라 하면,
확률변수 X의 확률분포표(말 그대로 확률이 각 변량에 어떻게 분포하는지 나타냄)이고, 이 확률분포표를 가지고 ①평균도 구하고 평균을 가지고 개별 편차들과 ②{편차들의 제곱}의 평균(=분산)도 구할 수가 있다.
확률분포표에 있어 평균(=기댓값)은 {각 변량×확률}이다. 이를 기댓값은 영어로 Expectation이며 앞글자 E와 확률변수X 를 이용하여 E(X)로 나타낸다.
이고 평균이 1.5 이므로 0, 1, 2, 3 과 같은 변량에 평균 1.5를 뺀 편차들을 구할 수 있다.
분산을 구하면 자동적으로 쉽게 표준편차를 구할 수 있다. 표준편차는 시그마σ 기호와 확률변수 X와 같은 기호를 사용하여 σ(X)로 표현한다.
분산의 제곱근=표준편차이다. 따라서 위 문제에서 표준편차는
이다.
0, 1, 2, 3과 같은 각각의 변량으로 만든 {편차들을 (양수로 만들기 위해) 제곱한 값들}의 평균을 구한 것이다. 즉 편차가 음수가 나올 수 있기 때문에 이를 해결하기 위해 ‘절댓값 기호’를 쓴다든지 ‘제곱’을 할 수 있는데, 고등학교 교과과정에서는 ‘제곱’을 하는 것이다.
통계의 중심이 되는 ‘평균’과 ‘분산(→표준편차)’를 구하는 법을 공부하였다. 확률변수는 반드시 각각의 변량과 변량에 대응되는 확률을 가지기에 이것을 확률분포표로 나타낼 수 있고, 이 표를 이용하여 평균과 분산을 쉽게 구할 수 있는 것이다.
확률변수 → 확률분포표 → 평균, 분산(→ 표준편차)
이 정도까지 이해했다면 통계파트의 70% 이상을 알게 되었다고 보아도 무방하다. 뒤에 이어질 내용도 이에 기반하기 때문에, 확률변수 → 평균 → 편차 → 분산 → 표준편차 의 구조가 계속 이어진다. 가장 중요한 내용이므로 혹시 이해가 잘 가지 않는 부분이 있다면 반드시 문제 풀이 또는 질문을 통해 이해하길 바란다.
https://play.google.com/store/apps/details?id=com.clicker.smartnfast&hl=en-KR