기본 콘텐츠로 건너뛰기

라벨이 분포함수인 게시물 표시

[matplotlib]quiver()함수

[data analysis]이산확률분포: 확률질량함수(pmf)와 누적분포함수 (cdf)

이산확률분포 내용 확률질량함수(PMF) 누적분포함수(Cumulative Distribution Function, CDF) 확률분포는 샘플공간의 각 값과 그에 대응하는 확률로 구현됩니다. 즉, 변수의 값들과 확률 사이의 관계를 함수로 표현할 수 있습니다. 그 변수가 이산변수(discrete variable) 일 경우 각 값에 대응하는 확률은 대상이 되는 값들의 빈도를 비율로 나타냅니다. 이 경우 한 지점에 대응하는 확률을 표현할 수 있으며 확률질량함수 (Probability Mass Function, PMF) 라고 합니다. 그러나 연속변수(continuous variable) 의 경우 한 지점에 대응하는 확률을 계산할 수 없습니다. 대신에 일정한 구간에 대응하는 확률은 계산될 수 있습니다. 즉, 전체에 대해 일정한 구간의 밀도로 확률을 표현합니다. 이 경우의 확률함수를 확률밀도함수 (Probability Density Function, PDF) 라고 합니다. 두 경우 모두 일정한 변수구간에서의 각 확률의 합을 확률누적분포함수 (Cumulative Distribution Function, CDF) 라고 합니다. 확률함수는 변수에 대응하는 확률의 집중, 퍼짐등의 정보를 포함합니다. 이러한 정보에 따라 나타나는 특징적인 형태를 확률분포(probability distribution)라고 합니다. 데이터의 수가 증가할수록 분포는 특정한 형태로 수렴합니다. 그 특정한 분포의 형태는 몇 가지의 확률질량함수 또는 확률밀도함수로 나타낼 수 있습니다. 이러한 분포와 함수들은 여러 통계 분석의 근거를 제공합니다. 확률질량함수(PMF) 표본공간(S)의 각 사건(x)에 대응하는 확률(p)을 함수로 나타낼 수 있습니다. 즉, 확률은 사건에 의존하는 함수로 p(x) = f(x)의 형태로 나타낼 수 있습니다(식 1). S = {x 1 , x 2 , x 3 , …} (식 1) f(x i ) = P(X = x i ),   i = 1, 2, 3, … 표본공간이 이산변...