-
이산확률변수와 연속확률변수가 다른 점카테고리 없음 2022. 9. 1. 15:03
https://play.google.com/store/apps/details?id=com.clicker.smartnfast&hl=en-KR
이산확률변수와 연속확률변수가 다른 점
확률변수는 변량을 셀 수 있는지 여부에 따라서 2가지 종류가 있다.
하나는 이산/확률변수이고, 다른 하나는 연속/확률변수이다.
이산(離散), discrete
확률변수에 속한 변량들이 서로 떨어져 분리된 것을 말한다.
가령, 동전을 세 번 던져 앞면이 나오는 횟수를 확률변수 X라 하면
0, 1, 2, 3과 같이 변량이 개별적으로 나타난다. 이처럼 이산확률변수의 변량은 ‘셀 수 있다’는 특징이 있다.
연속, consecutive
미적분을 공부하면, ‘연속’개념이 등장한다.
연속은 끊어지지 않고 연결된 선과 같이 변량이 무수히 많아 ‘셀 수 없다’는 특징 이 있다.
이산확률변수와 연속확률변수의 공통점은 둘 다 ‘확률변수’라는 것이고, 확률변수가 가지는 기본적인 구조는 동일하므로 먼저 이산확률변수에 대해 잘 이해하는 것이 좋다.
이산확률변수는 확률변수가 취하는 변량들(ex x1, x2, x3, x4, x5, ⋯, xi)은 셀 수 있다. 이미 앞에서든 예시인 동전을 3번 던져서 앞면이 나오는 횟수(0, 1, 2, 3,)을 변량으로 가지는 확률변수가 바로 이산확률변수이다.
이제, 동전을 3번이 아니라 100번 던진다고 가정해보자.
앞면이 나오는 횟수를 확률변수 X라 하면 변량은 부터 까지 있을 것이다.
이산확률변수가 주어지면 자동적으로 만들어야 할 표가 있다. 바로 ‘확률분포표’이다. 각각의 변량에 확률이 어떻게 분포되는지 나타내는 표를 만들어보자.
빈칸에 채워질 확률들을 어떻게 계산할까? 이에 대한 해답은 ‘이항정리’이다. 이항정리는 통계에서도 계속 사용되는 개념이다.
동전의 앞면이 나올 확률은
, 뒷면이 나올 확률은
이며 동전은 여러 번 시행해도 늘 같은 확률이 나오는 ‘독립시행의 확률’이다.
이항정리식은 (a+b)n꼴이며 동전을 던져서 나올 2가지 확률을 a와 b에 넣는다.
이 식은 이항정리로 전개할 수 있는데 식을 해석하면 다음과 같다.
이 내용은 앞에서 배운 ‘독립시행의 확률’의 내용과 일치한다.
이산확률변수는 셀 수있는 변량(가령 위와 같이 0, 1, 2, 3, …, 99, 100)이 어떤 확률값에 대응되는 함수를 갖는다. 이렇게 하나의 수가 다른 하나의 수에 반드시 하나씩 대응되는 관계를 함수라 부르는데, 이산화률변수의 임의의 변량에 대응되는 확률에 관한 관계식을 ‘확률질량함수’라 부른다.(참고로 곧나올 연속확률변수로 만든 함수의 이름은 확률밀도함수이다.)
우리가 아는 함수식을 아무거나 하나 가져와 보면
y= x2 + 2
x=3을 대입하면 y=11
x=0을 대입하면 y=2
인 것처럼 변수에 수를 대입하여 변수y의 값을 아는 이 구조가 확률질량함수에도 똑같이 적용된다.
단지 여기서는 변수x 대신 ‘변량’이라는 용어를, 변수y대신 ‘확률’이라는 용어를 사용할 뿐이다.
이처럼 변량을 셀 수 있는 확률별수가 있는가 하면 변량이 셀 수 없이 많아 확률분포표로 나타낼 수 없는 확률변수가 있다.
수의 체계로 비유하자면 자연수 1, 2, 3, 4는 이산확률변수의 변량이고 실수 1< x < 5는 연속확률변수의 변량이라고 할 수 있다.
연속확률변수도 마찬가지로 확률변수이고, 변량을 가지며, 그 변량은 모두 어떤 확률에 대응되는 관계식을갖는데, 이것을 ‘확률밀도함수’라 부른다.
방금 나왔던 ‘이산확률변수→확률질량함수’ 와 용어가 조금 다른 것을 알 수 있다.
확률질량함수 또는 확률밀도함수는 ‘함수’이므로 그래프로 나타낼 수 있다. 그래프로 나타내면 이 둘의 차이가 명확하게 나타난다.
확률질량함수 확률밀도함수
확률질량함수는 ‘점’으로 표현되는데 반해 확률밀도함수는 ‘선’으로 표현된다. 이유는 변량이 셀 수 있는 것과 셀 수 없을 만큼 많은 것의 차이가 있기 때문이다.
연속확률변수와 이것의 함수꼴인 확률밀도함수의 특징을 살펴보면
아랫부분의 넓이의 합은 1이다.(매우 중요)
이산확률변수와 연속확률변수는 변량이 셀 수 있는가 없는가의 차이가 있을 뿐이다.
그렇다면 이산확률변수의 변량을 점차적으로 늘리면 어떻게 될까? 마치 연속확률변수와 같은 모양이 갖추어짐을 짐작할 수 있을 것이다. 여기에서 재미있는 것은 이산확률변수의 함수꼴인 확률질량함수가 변량이 점점 많아질수록 그래프가 어떤 특정모양에 가까워진다는 것이다. 단, 이때 이산확률변수의 확률들은 동전이나 주사위와 같은 독립시행의 확률이어야 한다. 그럼 이산확률변수의 예시를 들어보자.
동전을 세 번 던져서 앞면이 나오는 횟수를 확률변수 X라고 할 때,
확률질량함수
이고, 이것을 함수 그래프로 나타내면 다음과 같다.
이 그래프의 특징이 매우 중요한데, 비록 세 번 밖에 던지지 않았지만
양 끝의 확률보다 가운데 부분의 확률이 크다는 것을 볼 수 있다. 이것이 우연의 일치가 아니라는 것이 포인트다.
이제 동전을 3번보다 조금 더 많은 횟수로 던져보자.
동전을 10번 던져서 앞면이 나오는 횟수를 확률변수 X라고 하면, 확률질량함수는
그래프로 나타내면 10개의 점으로 나타난다.
k=0에 대응하는 확률은
k=1에 대응하는 확률은
k=2에 대응하는 확률은
…
k=5에 대응하는 확률은
…
k=10에 대응하는 확률은
동전을 10번 던져 앞면이 0번 나올 확률, 1번 나올 확률, ..., 10번 나올 확률이 역시 마찬가지로 양끝에서 가운데로 올수록 높아짐을 볼 수 있다. 이제 동전을 20번, 100번 등 횟수를 늘려도 마찬가지 모양이 나올 것임을 예측할 수 있다.
그렇다면 동전이 아닌 다른 주사위와 같은 개별 시행 확률이 독립적인 ‘독립시행확률’에 있어서도 이런 현상이 생길까? 주사위를 n번 던져서 소수가 나오는 횟수라고 해도 종모양으로 우뚝 솟은 그래프가 나타날 것이다.
이렇듯 독립시행확률을 가지는 동전이나 주사위를 가지고 확률변수를 만들 때, 확률변수가 취하는 변량들이 대응되는 확률은 이항분포를 따르고, 이를 그래프로 나타내면 종모양의 이항분포 그래프가 된다.
ex) 동전 10번 던져 앞면이 나오는 횟수를 확률변수 X
이항분포를 기호로 나타내면 다음과 같다.
B(n, p)
B는 Binary의 앞글자로, 2개라는 뜻이다. 이항의 이가 둘(two)이기 때문이다.
n은 시행횟수( 동전을 3번 던진다면 n=3)
p는 독립시행확률(ex 동전의 앞면이 나오는 확률이라면 p=1/2)
가령 주사위를 5번 던져서, 짝수가 나오는 횟수를 확률변수 X라고 하면,
(독립시행확률을 전제)
수학은 기호의 학문이므로 같은 의미라면 최소한으로 표현하는 특징이 있다.
독립시행확률의 사례이면 무엇이든
럼 줄여서 표현이 가능하다는 것을 알 수 있다.
https://play.google.com/store/apps/details?id=com.clicker.smartnfast&hl=en-KR