-
모평균 추정에서 표본이 가치있는 이유카테고리 없음 2022. 9. 3. 02:02
https://play.google.com/store/apps/details?id=com.clicker.smartnfast&hl=en-KR.
모평균 추정에서 표본이 가치있는 이유
통계파트에서 중요한 수치는 2가지이다.통계를 시작할 때부터 표준정규분포에 이르기까지 계속 등장한 수치는
‘평균’과 ‘표준편차’이다. 그리고 지금까지 사용된 모든 자료들은 ‘모집단’이었다.
통계적 추정은 모집단 전체를 조사하는 것이 아닌 추정하는 것이다. 추정을 하려면 근거가 되는 자료가 있어야 한다. 하지만 너무 적은 표본을 가지고 모집단을 추정하는 것은 어렵다. 따라서 적당한 크기의 표본이 필요하다. 또한 표본은 임의 추출해야 한다. 표본을 골고루 추출해야 자료가 어느 한쪽에 치우치지 않을 수 있기 때문이다.
표본평균이라는 개념이 왜 필요할까.
가령 100명의 국어점수를 써놓은 공이 들어있는 주머니가 있다고 하자. 100명의 국어점수의 평균점수를 직접 구할 수도 있지만, 10명만 추출하여 표본을 가지고 100명의 평균점수를 예상해볼 수 있을 것이다.
10명의 국어점수의 평균이 70점이었다고 하자. 이 점수가 모집단인 100명의 평균점수와 전혀 관련이 없을까? 아마 아닐 것이다. 임의로 추출한 10명은 분명 100명에서 무작위로 뽑았으므로 100명과 관련이 있을 것이다. 그럼 어떻게 관련지을 수 있을까?
이렇게 생각해볼 수 있다. 표본의 평균점수가 70점인데 모집단의 평균점수가 터무니없이 10점이나 20점은 아닐 것이다. 물론 가능성이 없는 것은 아니다. 우연히 점수가 높은 10명이 표본으로 추출될 수도 있기 때문이다. 하지만 그 확률이 높지는 않을 것이다. 그보다는 표본집단의 평균점수인 70점과 비교적 가까운 점수가 모집단의 평균점수일 가능성이 높다!
통계는 막연한 모평균 추정보다는 좀 더 명확한 수치로서 모평균 추정을 가능하게 한다. 우리가 더 알고 싶은 것은 70점 주변이다. 그것을 신뢰구간이라고 부른다.
잠깐, 신뢰구간의 의미에 대해 이야기하기 전에 또 다른 가정을 하나 해보자.
10점의 범위로 돈을 걸어서 평균점수를 맞추면 10배의 돈을 주는 게임이 있다고 하자. 많은 사람들이 아무런 정보도 없이 이 도박을 한다면 이렇게 할 것이다. 일단 객관식 시험의 특성상 0점이나 100점이 나올 확률은 50점이 나올 확률보다 높지 않을 것이므로 양 극단에 도박을 하지 않을 것이다.
이것은 평균점수에 대한 아무런 정보가 없을 때의 이야기이다. 가령 이 학교가 학업성취도가 높은 학교인지 낮은 학교인지에 대한 정보만 있더라도 베팅을 하는 구간이 달라질 수 있을 것이다. 그런데 마침 이 학교 학생 10명의 평균점수가 공개되는 것이다! 그리고 그 점수가 70점이라고 한다면 많은 사람들이 70점 주변에 베팅을 할 것임을 알 수 있다.
이것이 표본평균이 도박에 미치는 영향이다. 표본평균 70점의 근처에 모평균이 포함될 것이라는 믿음(모평균 추정)이 사람들로 하여금 70점 주변에 도박을 하게 만드는 것이다. 그렇다면 이번에는 게임의 규칙을 조금 바꿔보도록 해보자.
베팅 구간을 2점 3점 5점 3가지로 만들고
베팅 구간(=신뢰구간)이 2점일 때에는 건 돈의 5배를 주고
베팅 구간(=신뢰구간)이 3점일 때에는 건 돈의 3배를 주고
베팅 구간(=신뢰구간)이 5점일 때에는 건 돈의 2배를 준다고 하자.
실제 평균점수가 베팅 구간(=신뢰구간)을 벗어나면 걸었던 돈을 잃는다.
즉 베팅 구간이 바로 전체 학생의 평균점수(모평균)가 포함되어 있을 것이라는 신뢰구간인 셈이다.(베팅 구간 = 신뢰구간)
베팅 구간이 작으면 작을수록 도박을 하는 사람은 돈을 잃을까봐 불안할 것이고
베팅 구간이 크면 클수록 도박을 하는 사람은 돈을 잃지 않겠다고 안심할 것이다.
베팅 구간 내에 모평균이 포함되어 있다는 믿음의 정도, 즉 신뢰도라고 할 수 있다.
신뢰구간이 크면 그만큼 모평균이 포함되어 있다는 신뢰의 정도가 클 것이다. 반면 신뢰구간이 작으면 모평균이 그 속에 포함되어 있다는 신뢰도가 작을 것이다. 가령 0점부터 100점까지 평균점수가 포함되어 있다는 신뢰도는 100%일 것이다. 왜냐하면 점수의 전범위이기 때문이다.
신뢰구간은 모평균을 포함될 것으로 추정되는 구간이며
신뢰도는 모평균이 포함될 확률이다. 신뢰구간이 크면 클수록 모평균의 포함을 신뢰할 수 있다.
https://play.google.com/store/apps/details?id=com.clicker.smartnfast&hl=en-KR