ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 통계에 대한 전체적인 흐름, 4차산업혁명에서 통계가 중요한 이유
    카테고리 없음 2022. 9. 1. 13:40

    통계에 대한 전체적인 흐름, 4차산업혁명에서 통계가 중요한 이유

    통계에 대한 이야기를 시작해보자. 앞서 배운 확률과 통계가 어떤 관계이고 통계파트의 특징이 무엇인지 이야기해보자.

     

    요즘 ‘빅데이터’라는 용어를 심심치 않게 듣는다. 4차 산업혁명은 빅데이터 전문가의 필요성이 증대된다고 하는데, 빅데이터가 무엇이고 빅데이터와 통계가 어떤 관계가 있을까?

     

    최근 인공지능 알파고가 이세돌과 커제에 승리를 거두면서 인공지능 기술에 많은 관심이 생기기 시작했다. 이세돌과의 승부를 겨뤘던 알파고는 이전의 모든 기보라는 ‘빅데이터’를 학습하고, 바둑에 있어 다음 수를 데이터에 의존하여 찾았다. 매 수를 둘 때마다 알파고와 이세돌의 승률이 ‘확률’로 보여지는데 역시 알파고는 가장 승리할 확률이 높은 곳을 찾는 기계에 불과했다.

    구글, 페이스북과 같은 거대 IT기업은 전세계 유저들이 자발적으로 생산하는 글, 사진, 동영상 데이터들을 집중적으로 모았기 때문에 4차 산업혁명의 선두 기업이 되었다. 이들 기업들은 이러한 데이터를 기계에 학습시켜 자율주행자동차를 만들고, 전자유통의 거대기업인 아마존은 무인점포를 만들고 있는 것이다.

    통계는 사람들이 하는 행동, 정보뿐만 아니라 자연현상까지 의미있는 자료로써 활용할 수 있는 유용한 도구이다. 통계는 데이터가 있고, 이 데이터에서 의미있는 위치값을 찾는 것이다.

    고등학교 교과과정에서는 전체 데이터와 특정 데이터 간의 위치관계를 다루고 있다. 가령, 수학시험점수가 80점인 학생이 있다고 할 때 전교에서 어느 정도 위치에 있는지 학급에서 어느 위치에 있는지를 찾도록 돕는 것이다. 통계를 가장 잘 표현해주는 그림이 하나 있다. 그림에 대해 먼저 소개를 하면서 설명하겠다.

    082-3

    이 그림이 가진 특징만 잘 이해한다면 통계부분을 무리없이 공부할 수 있다. 통계에서는 다음 그림으로 나오지 않는다. 두 그림의 차이가 무엇인지 보도록 하자.

    083-1

    왼쪽의 그림은 솟은 부분이 왼쪽에 치우쳐 있고, 오른쪽 그림은 가운데(평균)을 기준으로 좌우대칭이다.

    우리가 배우게 될 통계 그림은 무조건 오른쪽과 같은 좌우가 대칭인 모양만 보게 된다. 그림의 특징을 하나씩 짚어보자.

    083-2

    만일 운동장에 키가 적혀 있는 팻말이 있고 전교생을 키 순서대로 줄 세운다고 가정해보자.(물론 많은 반발이 있을 것이지만 교육 자료로 생각해보자). 위 그림을 거꾸로 하면

    083-3

    통계 그림과 같은 형태가 된다는 것을 알 수 있다. 결국 통계 그림은 사람 수(빈도수)와 관계가 있다. 그리고 가운데의 사람 수(빈도수)가 많다는 것이 가장 큰 특징이다.

    통계와 관련하여 고대그리스 플라톤은 «대화편»에서 어느 제자와 이런 이야기를 한다.

    “그대는 아직 듣지 못했는가. 평범한 것일수록 그 수가 많고 평범하지 않은 것일수록 그 수가 적다는 것을”

     

    인간도 자연의 일부에 속한다고 하면 모든 자연현상이 비슷한 패턴을 보인다는 것을 알 수 있는데, 어떤 기준으로 현상을 나열하면 자료의 빈도가 가운데는 많고 가운데 값에서 멀어질수록 그 숫자가 현저히 줄어든다는 것이다.

     

    우리들은 주변에서 무수히 많은 이러한 예시를 볼 수가 있다. 가령, 초등학생 중에 키가 2m가 넘는 학생이 많을까? 적을까? 수학시험점수를 나열할 때 70점이 많을까? 90점이 많을까? 생각해보면 그 수가 많을지 적을지를 가늠할 수 있다.

    우리가 경험한 바에 따르면 양끝의 값보다는 중간의 값이 더 많다는 것을 알 수 있다. 수학자 가우스는 이러한 현상을 수학적으로 증명하였는데, 자료의 수가 많으면 많을수록 자료들이

    084-1

    이와 같은 분포를 띤다는 것을 이야기한다.

    그렇다면, 이러한 사실로부터 우리가 알아야하는 것은 무엇일까? 이 종모양의 그림을 이용하는 방법을 배우는 것이다.

    084-2

    이 종모양을 결정하는 값은 2개뿐이다.

    하나는 ‘평균’, 다른 하나는 ‘표준편차’이다.

    평균은 좌우대칭축의 위치를 결정하고, 표준편차는 봉우리의 높낮이(정확히 말하자면 평균으로부터 고르게 분포하는 정도)를 결정한다.

    084-3

    평균과 표준편차만 알 수 있다면 하나의 종 모양을 만들 수 있다.

    만일 어떤 해의 수능 언어영역의 평균점수가 50점, 표준편차가 3이라고 하자. 이 두 값에 해당하는 종모양이 있다고 하자.

    085-1

    이때, 어떤 학생의 점수가 80점이라고 할 때, 이 학생이 상위 몇 퍼센트인지에 따라 등급이 결정될 것이다.

    085-2

     

    종모양의 전체 넓이를 이라고 할 때,

    80점의 왼쪽이 , 오른쪽이 0.15라면

    이 학생은 상위 15%이며, 자신의 점수를 포함한 학생들의 수가 전체에서 차지하는 비중이 15%(0.15)라는 것이다. 따라서 이 학생은 3등급에 해당함을 알 수 있다.

     

    이때 표준편차가 하는 역할이 무엇인지 알아보자.

    우리는 일상생활에서도 표준이라는 말을 생략하여 ‘(표준)편차가 크다’, ‘(표준)편차가 작다’는 말을 사용하기도 한다. 그렇다면 다음 그림 중 표준편차가 큰 것은 어떤 것일까?

    느낌상으로도 알 수 있듯이 오른쪽이 상대적으로 왼쪽보다 표준편차가 크다.

    그럼 다음 그림에서 어느 것이 표준편차가 클까?

    086-1

    편차란 ‘자료값(또는 변량) 평균’이다.(주의> ‘평균 자료값(또는 변량)’이 아니다) 편차를 살펴보면 자료들이 평균을 중심으로 얼마나 퍼져 있는지를 알 수 있다. 편차란 각각의 점들이 평균값과 얼마나 차이를 가지는지를 나타내는데 자료값이 평균보다 크면 양의 값을, 평균보다 작으면 음의 값을 갖는다.(편차가 음의 값을 가질 수도 있음을 주의한다)

     

    표준편차는 ‘분산’의 정의대로 구한 값의 제곱근이다.

    086-2

    표준편차를 구하는 과정에서 가장 중요하고도 빠질 수 없는 것은 ‘평균’이다. 표준편차를 구하는 과정은 철저하게 순서가 있다. 즉, ‘평균’을 모르고서는 ‘편차’를 구할 수가 없고, ‘편차’를 모르고서는 ‘분산’을 구할 수가 없는 것이다. 순서를 나타내면 다음과 같다.

    087-1

    표준편차를 구하기 위해서는 항상 ‘평균을 먼저 구한다’. 평균이 언제나 시작이다. 평균은 우리가 알고 있는 그 평균, 산술평균을 의미한다. (ex 수학 80, 영어 70 이면 평균 75).

     

    087-2

     

    평균을 구해야만 편차를 구할 수 있다. 편차는 ‘개별변수가 평균으로부터 얼마나 떨어져있는가’라는 질문에 대한 답이다. 당연히 기준이 되는 ‘평균’이 있어야 각각의 변수가 평균에서 얼마나 가까운지를 알 수 있는 것이다. 이러한 편차의 느낌을 가지고 편차의 정의를 살펴보면 편차란 ‘(변수-평균)’이다. 이때 가장 주의해야할 것은 ‘(변수 < 평균)’일 경우 ‘편차<0’, 음의 편차가 나올 수 있다는 것이다. 편차는 각 변수의 평균으로부터의 거리의 느낌이지만, 양의 값만 가지는 거리와 달리 음의 값을 가질 수도 있다는 것이다.

    또 편차와 표준편차를 혼동하면 안 된다. 표준편차는 ‘평균적인 편차’라고 생각하면 된다. 편차는 개별변수마다 다를 수 있는데 ‘전체적인 편차의 정도’를 나타내는 하나의 값이 표준편차이다.

    편차는 ‘(변수-평균)’이기 때문에 변수의 개수만큼 편차의 개수가 정해진다. 편차의 개수는 보통 여러 개이다.

     

    이 순서대로 표준편차를 구하는 것이다.

     

    분산은 말 그대로 ‘개별 변수들이 평균으로부터 흩어진 정도(개별 편차)를 하나의 값으로 나타낸 것’이다. 표준편차는 분산과 단지 제곱의 관계에 불과하다. 가령 분산의 값이 이면 표준편차의 값은 분산의 양의 제곱근인

    이다.

     

    평균과 편차에 대한 개념을 가지고, ‘분산’을 구하는 과정을 수식으로 표현해보자.

    분산은 ‘개별 편차들의 제곱을 평균으로 만든 것’이다. 개별 변수의 개수만큼 편차가 있고, 이 편차는 양의 값이 될 수도 있고, 음의 값이 될 수도 있다. 이러한 편차들을 평균적인 수치로 나타내기 위해 ‘개별 편차의 제곱’을 한 값들의 평균을 구하는 것이 분산이다.

    댓글

Designed by Tistory.