기본 콘텐츠로 건너뛰기

벡터와 행렬에 관련된 그림들

[data analysis] 확률(probability)

확률(probability)

확률은 미래에 발생할 사건에 대한 믿음의 측정으로 과거의 데이터를 기반으로 합니다. 즉, 과거의 데이터들로부터 전체 중에서 특정한 대상이 되는 사건(event)의 발생 비율을 확률(probability)이라고 정의할 수 있습니다. 확률은 다음의 공리를 가집니다.

[확률 공리]
  • 확률은 0과 1 사이의 값: 0 ≤ P(x) ≤ 1,
  • 모든 확률의 합은 1: ∑P(x) = 1

실험에서 특별한 사건이 일어날 확률에 대한 개념은 다양한 방식으로 적용되고 해석 될 수 있습니다. 예를 들어 내일은 비올 확률이 70%라는 예보에 대해 과거 기후 조건의 데이터들을 분석하여 오늘의 날씨와 유사한 조건에서 70%가 비가 온다는 결과로서 해석할 수 있으며 또한 예보자의 주관적인 생각의 결과로 해석할 수도 있습니다. 전자의 경우는 기존 데이터들에서 대상이 되는 사건들의 빈도로 확률을 계산하는 방식으로 빈도적 해석 (frequency interpretation)이라 하고 후자의 경우는 주관적인 추론에 의한 결과로서 주관적 해석 (subjective interpretation)이라고 합니다. 이와 같이 확률은 두 가지 시각으로 해석할 수 있으며 모든 경우에 사용되는 기본적인 용어들이 있습니다.

  • 확률실험(random experiment, 시행)
    • 모든 사건들의 확률이 동일하다고 가정할 수 있는 시행
    • ex 1) 동전 던지기: 앞과 뒤가 나올 확률은 동일
    • ex 2) 일일 주가의 변화율: 정확한 결과를 예측할 수 없고 각 값들이 생성될 확률은 동일
  • 요소(element) 또는 표본점 (sample point)
    • 확률 실험에서의 일어날 수 있는 기본 결과
  • 표본공간(sample space)
    • 확률실험에서 나타나는 모든 표본점(결과)들의 집합
    • Ex) 주사위 시행의 모든 표본점들은 1, 2, 3, 4, 5, 6이며 모든 요소들의 집합이 표본 공간 S가 됩니다.
    •  S = {1, 2, 3, 4, 5, 6}
  • 사건(event)
    • 확률실험에서 관심의 대상이 되는 요소들의 모임. 표본공간의 특정한 요소(들)의 집합으로 사건의 확률은 식 2.1.1과 같이 계산됩니다.
  • 확률변수(random variable)
    • 확률이 동일한 사건들을 나타내는 변수
  • 상호 배타적 또는 독립적(mutually exclusive, disjoint, independent)
    • 두개 이상의 사건들의 교집합이 공집합
    • A ∩ B ∩ … = ∅
    • 상호 배타적 ≡ 배반사건 ≡ 독립사건
확률 = 특정사건의 빈도 (식 1)
표본공간의 모든 빈도

표본공간에서 특정한 사건들의 관계는 집합을 사용하여 명확히 나타낼 수 있습니다.

  1. 전체집합 : 표본공간을 나타냅니다.
  2. 공집합: 요소가 하나도 없는 집합 (∅)
  3. 합집합: 두개 이상의 사건들에 속한 모든 요소들을 결합한 집합
    • 두 집합 A와 B의 합집합: A or B = A ∪ B
    • 합집합의 확률은 식 2와 같이 계산됩니다.
  4. 교집합: 여러 집합들에 공통으로 속한 요소(들)의 집합
    • 두 집합 A와 B의 교집합: A and B = A ∩ B
    • 두 사건이 독립일 경우 그 확률은 식 3과 같이 계산됩니다.
    • 식 3이 성립되지 않은 경우 두 사건은 독립이 아니며 상호간에 영향을 주는 교호작용 (interaction)의 존재를 의미합니다.
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (식 2)
P(A ∩ B) = P(A) × P(B) (식 3)

예 1)

동전 3개를 던지는 확률실험(시행)에서 앞면이 두 개 이상 나올 확률을 구해봅니다.

동전 3개를 던지는 시행의 모든 결과 즉, 표본공간은 다음과 같습니다.

확률 실행의 표본은 반복문을 파이썬의 사용하여 나타낼 수 있지만 itertools 모듈의 여러 함수를 사용하는 것이 편리합니다. 다음은 itertools.product() 함수를 사용하여 나타낸 것입니다.

  • itertools.product(객체, repeat=1)
    • 객체를 시행할 경우 모든 경우를 반환
    • 인수 repeat은 시행횟수를 지정하며 기본값은 1
    • 이 함수의 결과는 게으른 평가로 이루어지므로 결과에 대해 자료형을 지정해 주어야 함
import itertools
S=list(itertools.product(('H','T'), repeat=3));S
[('H', 'H', 'T'),
('H', 'T', 'H'),
('H', 'T', 'T'),
('T', 'H', 'H'),
('T', 'H', 'T'),
('T', 'T', 'H'),
('T', 'T', 'T')]
len(S)
8

각 동전의 시행에서 앞면과 뒷면이 나올 확률이 동일할 뿐만 아니라 동전들 사이의 시행은 상호 배타적입니다. 즉, 각 동전의 시행은 독립적입니다. 그러므로 동전 3개를 시행하는 한번의 사건에서 2개이상이 앞면이 나올 확률은 다음과 같습니다.

$$\frac{1}{2}\frac{1}{2}\frac{1}{2}=\frac{1}{8}$$

위 결과를 수치형(앞면:1, 뒷면:0)으로 전환하여 표본공간을 다시 작성합니다. 이 전환에 의해 전체 샘플 중에 두개이상이 앞면인 경우는 각 요소의 합이 2이상인 경우가 될 것입니다.

S=list(itertools.product((1, 0), repeat=3))
print(S)
[(1, 1, 1), (1, 1, 0), (1, 0, 1), (1, 0, 0), (0, 1, 1), (0, 1, 0), (0, 0, 1), (0, 0, 0)]
event_sum=np.sum(S, axis=1)
print(event_sum)
[3 2 2 1 2 1 1 0]
eventMore2=np.where(event_sum>=2)
print(eventMore2[0])
[0, 1, 2, 4]
prob=1/8*len(eventMore2[0]); prob
0.5

위 코드에서 함수 np.where(조건)은 조건에 맞는 부분의 인덱스를 반환하는 numpy 라이브러리 함수입니다.

  • numpy.where(조건)
    • 조건이 참인 경우의 인덱스를 튜플 형식으로 반환

예 2)

A와 B가 게임을 하는데 A의 평균 전적은 $\frac{2}{3}$ 입니다. 이 조건에서 두 게임을 할 경우 A가 적어도 한번 이길 확률?

A와 B의 경기에서 과거 확률은 다음과 같습니다.

$$\text{P(A)}=\frac{2}{3}\quad \text{P(B)}=\frac{1}{3}$$

두번의 경기를 할 경우 모든 결과 즉, 표본공간은 다음과 같습니다.

S=list(itertools.product(("A", "B"), repeat=2));S
[('A', 'A'), ('A', 'B'), ('B', 'A'), ('B', 'B')]

A가 적어도 한번 이길 확률은 전체 확률(1)에서 B가 모두 이긴 확률을 제외한 확률이 됩니다.

pa=2/3
pb=1/3
S=list(itertools.product((pa, pb), repeat=2))
print(np.around(S, 3))
[[0.667 0.667]
 [0.667 0.333]
 [0.333 0.667]
 [0.333 0.333]]
prob=[i*j for i, j in S]
print(np.around(prob, 3))
[0.444 0.222 0.222 0.111]
round(1-prob[3], 3)
0.889

위 코드에서 사용된 함수 np.around(배열객체, 자릿수)round(실수, 자릿수)는 각각 배열 객체와 실수를 지정된 자릿수까지 반올림합니다. 배열 객체는 numpy패키지의 array() 함수에 의해 생성된 벡터 또는 행렬객체 등을 의미합니다.

예 3)

예 2의 조건에서 3번의 경기를 할 때 A가 B 보다 먼저 2번 이길 확률?

pa=2/3
pb=1/3
S=list(itertools.product((pa, pb), repeat=3))
print(np.around(S, 3))
[[0.667 0.667 0.667]
 [0.667 0.667 0.333]
 [0.667 0.333 0.667]
 [0.667 0.333 0.333]
 [0.333 0.667 0.667]
 [0.333 0.667 0.333]
 [0.333 0.333 0.667]
 [0.333 0.333 0.333]]
prob=[i*j*k for i, j, k in S if (i==2/3)&(j==2/3)]
print(np.around(prob, 3))
[0.296 0.148]
round(sum(prob), 3)
0.444

위 코드에서 사용한 함수 sum(x)은 리스트 객체인 x의 모든 요소들의 합을 계산합니다.

댓글

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

유사변환(Similarity transformation) n×n 차원의 정방 행렬 A, B 그리고 가역 행렬 P 사이에 식 1의 관계가 성립하면 행렬 A와 B는 유사행렬(similarity matrix)이 되며 행렬 A를 가역행렬 P와 B로 분해하는 것을 유사 변환(similarity transformation) 이라고 합니다. $$\tag{1} A = PBP^{-1} \Leftrightarrow P^{-1}AP = B $$ 식 2는 식 1의 양변에 B의 고유값을 고려한 것입니다. \begin{align}\tag{식 2} B - \lambda I &= P^{-1}AP – \lambda P^{-1}P\\ &= P^{-1}(AP – \lambda P)\\ &= P^{-1}(A - \lambda I)P \end{align} 식 2의 행렬식은 식 3과 같이 정리됩니다. \begin{align} &\begin{aligned}\textsf{det}(B - \lambda I ) & = \textsf{det}(P^{-1}(AP – \lambda P))\\ &= \textsf{det}(P^{-1}) \textsf{det}((A – \lambda I)) \textsf{det}(P)\\ &= \textsf{det}(P^{-1}) \textsf{det}(P) \textsf{det}((A – \lambda I))\\ &= \textsf{det}(A – \lambda I)\end{aligned}\\ &\begin{aligned}\because \; \textsf{det}(P^{-1}) \textsf{det}(P) &= \textsf{det}(P^{-1}P)\\ &= \textsf{det}(I)\end{aligned}\end{align} 유사행렬의 특성 유사행렬인 두 정방행렬 A와 B는 'A ~ B' 와 같...

[sympy] Sympy객체의 표현을 위한 함수들

Sympy객체의 표현을 위한 함수들 General simplify(x): 식 x(sympy 객체)를 간단히 정리 합니다. import numpy as np from sympy import * x=symbols("x") a=sin(x)**2+cos(x)**2 a $\sin^{2}{\left(x \right)} + \cos^{2}{\left(x \right)}$ simplify(a) 1 simplify(b) $\frac{x^{3} + x^{2} - x - 1}{x^{2} + 2 x + 1}$ simplify(b) x - 1 c=gamma(x)/gamma(x-2) c $\frac{\Gamma\left(x\right)}{\Gamma\left(x - 2\right)}$ simplify(c) $\displaystyle \left(x - 2\right) \left(x - 1\right)$ 위의 예들 중 객체 c의 감마함수(gamma(x))는 확률분포 등 여러 부분에서 사용되는 표현식으로 다음과 같이 정의 됩니다. 감마함수는 음이 아닌 정수를 제외한 모든 수에서 정의됩니다. 식 1과 같이 자연수에서 감마함수는 factorial(!), 부동소수(양의 실수)인 경우 적분을 적용하여 계산합니다. $$\tag{식 1}\Gamma(n) =\begin{cases}(n-1)!& n:\text{자연수}\\\int^\infty_0x^{n-1}e^{-x}\,dx& n:\text{부동소수}\end{cases}$$ x=symbols('x') gamma(x).subs(x,4) $\displaystyle 6$ factorial 계산은 math.factorial() 함수를 사용할 수 있습니다. import math math.factorial(3) 6 a=gamma(x).subs(x,4.5) a.evalf(3) 11.6 simpilfy() 함수의 알고리즘은 식에서 공통사항을 찾아 정리하...

sympy.solvers로 방정식해 구하기

sympy.solvers로 방정식해 구하기 대수 방정식을 해를 계산하기 위해 다음 함수를 사용합니다. sympy.solvers.solve(f, *symbols, **flags) f=0, 즉 동차방정식에 대해 지정한 변수의 해를 계산 f : 식 또는 함수 symbols: 식의 해를 계산하기 위한 변수, 변수가 하나인 경우는 생략가능(자동으로 인식) flags: 계산 또는 결과의 방식을 지정하기 위한 인수들 dict=True: {x:3, y:1}같이 사전형식, 기본값 = False set=True :{(x,3),(y,1)}같이 집합형식, 기본값 = False ratioal=True : 실수를 유리수로 반환, 기본값 = False positive=True: 해들 중에 양수만을 반환, 기본값 = False 예 $x^2=1$의 해를 결정합니다. solve() 함수에 적용하기 위해서는 다음과 같이 식의 한쪽이 0이 되는 형태인 동차식으로 구성되어야 합니다. $$x^2-1=0$$ import numpy as np from sympy import * x = symbols('x') solve(x**2-1, x) [-1, 1] 위 식은 계산 과정은 다음과 같습니다. $$\begin{aligned}x^2-1=0 \rightarrow (x+1)(x-1)=0 \\ x=1 \; \text{or}\; -1\end{aligned}$$ 예 $x^4=1$의 해를 결정합니다. solve() 함수의 인수 set=True를 지정하였으므로 결과는 집합(set)형으로 반환됩니다. eq=x**4-1 solve(eq, set=True) ([x], {(-1,), (-I,), (1,), (I,)}) 위의 경우 I는 복소수입니다.즉 위 결과의 과정은 다음과 같습니다. $$x^4-1=(x^2+1)(x+1)(x-1)=0 \rightarrow x=\pm \sqrt{-1}, \; \pm 1=\pm i,\; \pm1$$ 실수...