기본 콘텐츠로 건너뛰기

라벨이 probability인 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

R 수학과 통계등의 내장함수들

내용 함수들 수학함수 통계함수 확률함수 문자함수 유용한 함수들 데이터 관리를 위한 함수들과 제어문 함수들 수학함수 수학함수 함수 설명 abs(x) 절대값반환 abs(-4) → 4. sqrt(x) 제곱근, sqrt(25) → 5 &eqiv; 25^(0.5). ceiling(x) x보다 작지않은 가장 작은 정수 ceiling(3.21) → 4 floor(x) x보다 크지않은 가장 큰 정수 floor(3.21) → 3 trunc(x) x의 값 중 숫점 이하의 값을 버림으로서 형성된 정수 trunc(3.21) → 3 round(x, digits=n) x의 지정한 자릿수+1 에서 반올림 round(3.475, digits=2) → 3.48. signif(x, digits=n ) x를 지정된 유효 자릿수로 반올림 signif(3.475, digits=2) → 3.5. cos(x) , sin(x) , tan(x) Cosine, sine, and tangent cos(2) → -0.416. acos(x) , asin(x) , atan(x) 삼각함수의 역함수, arc-cosine, arc-sine, and arc-tangent acos(-0.416) → 2. cosh(x) , sinh(x) , tanh(x) 쌍곡선 함수인 hyperbolic cosine, sine, and tangent sinh(2) → 3.627. acosh(x) , asinh(x) , atanh(x) Hyperbolic arc-cosine, arc-sine, and arc-tangent asinh(3.627) → 2. log(x, base=n) 밑수가 a인 로그함수 log(10, 2) = log(10)/log(2) \→ 3.321928

기하분포와 음이항분포

내용 기하분포(Geometric distribution) 기하분포의 기대값과 분산 음이항분포(Negative Binomial Distribution) 음이항 분포의 기대값과 분산 기하분포(Geometric distribution) 베르누이 시행을 반복하여 첫번째로 성공이 나오는 경우까지의 확률변화의 분포를 기하분포(Geometric distribution) 라고 합니다. 예를 들어 성공확률이 p인 베르누이 시행을 반복시행하여 최초 성공(s)이 되는 경우를 확률변수 X로 하는 확률질량함수는 다음과 같이 될 것입니다. $$\begin{align}&R_x=\{1,\, 2,\, \cdots \}\\&f(1)=P(X=1)=p\\ &f(2)=P(X=2)=(1-p)p \\& \qquad \vdots\end{align}$$ 위의 결과를 일반화하면 기하분포의 확률질량함수는 식 1과 같이 공식화 할 수 있습니다. $$\begin{equation}\tag{1} f(x)=P(X=x)=(1-p)^{x-1}p\\ \end{equation}$$ 식 1과 같이 확률질량함수는 매개변수 p에만 의존합니다. 그러므로 모수 p를 가지는 기하분포는 다음과 같이 나타냅니다. X ∼ Geometric(p) 기하분포의 확률밀도함수는 scipy모듈의 stats.geom.pmf() 메소드로 계산할 수 있습니다. 그림 1은 기하분포의 모수에 따른 확률밀도의 변화를 나타낸 것입니다. import numpy as np import pandas as pd from scipy import stats import matplotlib.pyplot as plt from sympy import * plt.figure(dpi=100) for i in [0.1, 0.3, 0.5, 0.7]: p=[stats.geom.pmf(j, i) for j in range(10)] plt.plot(ran

베르누이와 이항확률분포

내용 베르누이분포(Bernoulli distribution) 이항확률분포(Binomial distribution) 이항분포의 기대값과 분산 베르누이분포(Bernoulli distribution) 한번의 시행에서 성공 또는 실패(1또는 0)의 결과만을 보이는 확률분포를 베르누이분포 라고 합니다. 즉, 이 확률변수는 두개의 값만을 포함합니다. 이 분포의 확률질량함수는 식 1과 같이 나타낼 수 있습니다. $$\begin{equation}\tag{1} f(x)=P(X=x)=\begin{cases}p&\quad \text{for}\; x=1\\1-p&\quad \text{for}\; x=0\\ p&\quad \text{for}\; x=\text{otherwise} \end{cases} \end{equation}$$ 위 확률질량함수(PMF)는 하나의 매개변수(parameter) 즉, 확률 p에 의해 결정됩니다. 그러므로 이 분포는 다음과 같이 나타냅니다. X ∼ Bernoulli(p) import numpy as np import pandas as pd from scipy import stats from sympy import * import matplotlib.pyplot as plt 예 1)  1개의 주사위를 시행하는 경우 확률변수는 다음과 같습니다. $$\begin{align}&\text{눈의 수 1 or 3 : x=1}\\ &\text{Any other value: x=0}\end{align}$$ 이 분포의 확률질량함수(PMF)와 E(x) ? $$\begin{align} &f(x)=\left(\frac{1}{3}\right)^x\left(\frac{2}{3}\right)^{1-x}\\ &\begin{aligned}E(x)&=1 \cdot \frac{1}{3}+0 \cdot \frac{2}{3}\\&=\frac{1}{3}\end{aligne

랜덤변수들의 결합

랜덤변수들의 결합 실제 자료 분석에서 두 개 이상의 변수들 사이의 관계가 분석 대상이 되는 경우가 빈번합니다. 예를 들어 암과 담배의 관계나 주가와 이자의 관계를 파악하는데 있어 분석할 변수들은 두 개 이상이 됩니다. 이러한 다변수의 상황에서 확률과 다양한 통계량들의 산출 과정은 단변수에서의 과정과 유사합니다. import numpy as np import pandas as pd from scipy import stats import matplotlib.pyplot as plt from scipy import special from sympy import * import FinanceDataReader as fdr 예 1)  A 학급 12명의 학생들 중 축구 선수가 3명이고 야구 선수가 4 명 있습니다. 다른 학급과 어떤 운동경기를 하기위에 3명을 선출하는 경우 모두 선수 출신 학생일 확률? 축구선수의 변수를 X, 야구선수의 변수를 Y, 나머지를 Z이라 하면 이 분포의 확률은 다음과 같이 계산됩니다. $$\begin{align} &p(X=x, Y=y, Z=z)=\frac{\binom{3}{x} \binom{4}{y} \binom{5}{z}}{\binom{12}{3}}\\ &x+y+z=12 \end{align}$$ total=special.comb(12, 3) total 220.0 p=pd.DataFrame([[]]) for i in range(4): for j in range(5): for k in range(5): if i+j+k==3: x=pd.DataFrame([[i, j, k, special.comb(3,i)* special.comb(4, j)*special.comb(5, k)/total]]) p=pd.concat([p, x]) p=np.around(p.iloc[1:,:], 3) p.columns=['x',

확률부등식과 모멘트 생성함수

확률부등식 마르코프 부등식(Markov's inequality) 체비셰프부등식(chebyshev's inequality) 모멘트생성함수(Moment generating function) 테일러 급수 확률부등식과 모멘트 생성함수 통계량으로 추정될 수 있는 분포에서 대상이 되는 값(들)이 포함되는 확률의 구간을 알아야 할 필요가 있습니다. 또한 통계분석 결과를 신뢰하는 정도를 나타내는 신뢰구간 을 설정할 필요가 있습니다. 마르코프와 체비셰프 부등식은 확률구간 또는 신뢰구간을 설정하는 이론적 근거가 되는 수학적 표현들입니다. 확률부등식 마르코프 부등식(Markov's inequality) X가 랜덤변수이고 g(x)가 음이 아닌 실수값 함수이면 임의의 양의 실수 c에 대해 식 1이 성립합니다. $$\begin{equation} \tag{1} p[g(x) \ge c] \le \frac{E[g(x)]}{c} \end{equation}$$ 이 변수의 사건이 $A=\{x|g(x) \ge c\}$라 하면 위 식은 다음과 같이 증명됩니다. $$\begin{align} E[g(x)]&=\int^\infty_{-\infty} g(x)f(X)\, dx\\&=\int_{A} g(x)f(X)\, dx+\int^c_{A} g(x)f(X)\, dx\\& \ge \int_{A} g(x)f(X)\, dx\\&\ge \int_{A} cf(X)\, dx\\&=cP[x \in A]\\&=cP[g(x) \ge c] \end{align}$$ 예 1)  확률변수 X는 평균이 np, 분산이 np(1-p)인 이항분포를 따릅니다. 마코프 부등식을 적용하여 다음식을 만족하는 확률의 상한(upper bound)을 결정합니다. $$\begin{align} &P(X \ge \alpha n)\\ & p=\frac{1}{2}, \quad \alpha

카이제곱분포(chi-squared distribution)

카이제곱 분포(Chi-square distribution) 이항분포는 두 개의 상호 배타적인 (독립인) 변수들에 적용되며 근사적으로 정규분포로 전환될 수 있습니다. 이러한 이항분포와 정규분포를 따르는 2개 이상의 독립된 변수들에 확장할 수 있는 분포를 카이제곱($\chi^2$)분포 라고 합니다. $\chi^2$분포 Z 1 , Z 2 , Z 3 , …가 독립이고 표준 정규분포를 따르는 확률변수라면 그들의 합으로 구성된 확률변수 X는 다음과 같이 정의됩니다. $$X=Z^2_1+Z^2_2+\cdots+Z^2_k$$ 위와 같이 정의된 확률변수 X는 자유도 k를 가진 $\chi^2$분포를 따릅니다. 이를 다음과 같이 나타냅니다. $$X \sim \chi^2_k$$ 카이-제곱 분포는 X 1 및 X 2 가 각각 k 1 및 k 2 자유도를 갖는 독립적인 카이-제곱 확률 변수인 경우 X 1 +X 2 가 k 1 + k 2 자유도를 갖는 카이-제곱이라는 가산 특성을 갖습니다. 이것은 모멘트 생성 함수를 사용하거나 가장 쉽게 X 1 + X 2 가 k 1 + k 2 독립 표준 정규의 제곱의 합이므로 k 1 + k 2 자유도의 카이-제곱 분포를 갖는다는 점에 주목함으로써 공식적으로 나타낼 수 있습니다. X가 자유도가 n인 카이제곱 확률 변수인 경우 임의의 α ∈(0, 1)에 대해 양 $\chi^2_{\alpha, n}$은 다음과 같이 정의됩니다. $$P\{X \ge \chi^2_{\alpha, k}\} = \alpha$$ $\chi^2$분포는 scipy.stats 모듈의 chi() 클래스로 구현할 수 있으며 이 클래스내의 다양한 메소드를 적용하여 이 분포의 통계량들을 계산할 수 있습니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy import stats 다음은 자유도 3

확률과 주요통계량: 왜도와 첨도

내용 왜도 첨도 확률과 주요통계량: 왜도와 첨도 확률분포의 특성을 나타내는 통계량으로 평균과 분산 외에 왜도(skewness) 와 첨도(kurtosis) 역시 빈번하게 사용합니다. 왜도는 분포의 중심 즉, 평균을 기준으로 좌우의 비대칭성의 정도를 나타내고 첨도는 분포의 peak 즉 봉우리의 뾰족한 정도를 표시하는 지표입니다. 왜도와 첨도는 각각 식 1과 식 2와 같이 정의됩니다. 이 통계량들은 확률변수와 평균의 차이에 대해 3제곱과 4 제곱을 적용한 새로운 확률변수에 대한 기대값입니다. 결과적으로 왜도와 첨도는 각각 3차와 4차 모멘트 를 사용하여 계산됩니다. 왜도 표준정규분포의 왜도 = 0 skewness > 0: 분포가 오른쪽으로 기울어진 형태(skewed to right) skewness < 0: 분포가 왼쪽으로 기울어진 형태(skew to left) $$\begin{align}\tag{1} \text{Skewness(왜도)}&=E\left(\frac{X-\mu}{\sigma} \right)^3\\&=\frac{E(X-\mu)^3}{\sigma^3 } \end{align}$$ 첨도 표준정규분포의 첨도는 0 kurtosis > 0: 표준정규분포 보다 더 뾰족합니다. kurtosis < 0: 표준정규분포 보다 덜 뾰족합니다. $$\begin{align}\tag{2} \text{Kurtosis(첨도)}&=E\left(\frac{X-\mu}{\sigma} \right)^4-3\\&=\frac{E(X-\mu)^4}{\sigma^4}-3 \end{align}$$ import numpy as np import pandas as pd from scipy import stats import matplotlib.pyplot as plt 예 1)  성공확률 p

확률과 주요통계량: 분산

내용 분산 (Variance) 확률과 주요통계량: 분산 분산 (Variance) 분산(variance) 은 데이터 변동성 을 나타내는 것으로 식 1과 같이 계산되며 분산의 제곱근이 표준편차(standard deviation, $\sigma$) 가 됩니다. $$\begin{align}\tag{1}\sigma^2&=E(X-\mu)^2\\&=(x_1-\mu)^2P(X=x_1)+ \cdots+(x_k-\mu)^2P(X=x_k)\\&=\sum^k_{i=1} (x_k-\mu)^2P(X=x_k) \end{align}$$ 자료 분포에 대한 퍼짐의 척도인 분산은 각 데이터와 평균사이의 편차 제곱에 대한 가중 평균입니다. 식 1은 다음과 같이 간략하게 정리됩니다. $$\begin{align}&\begin{aligned}\sigma^2&=\sum (x-\mu)^2P(X=x)\\&=\sum(x^2-2x\mu+\mu^2)f(x)\\&=\sum x^2f(x) -2\mu \sum xf(x)+ \mu^2\\&=\sum x^2f(x)-\mu^2\\&=E(X^2)-(E(X))^2 \end{aligned}\\ & \because \sum xf(x)=\mu \end{align}$$ 위 식과 같이 분산의 계산은 변수의 제곱에 대한 기대값과 평균의 제곱으로 구성됩니다. 그 변수 제곱의 기대값은 2차 모멘트 라고 합니다. 다시말하면 변수의 차수에 따른 기대값은 그 차수에 대한 모멘트 로 표현합니다. 그러므로 분산은 2차 모멘트와 1차 모멘트의 제곱의 차로 계산되며 모두 기대값이므로 식 2와 같은 선형결합이 성립합니다. $$\begin{align}\tag{2} Var(aX+b)&=\sigma^2_{ax+b}\\&=E[((aX+b)-\mu_{aX+b})^2]\\ &=E[((aX+b)-E(aX+b))^2]\\&=E[((aX+b)-aE(X)+b)^2]\\&=E[(a(X-\mu))^

확률과 주요통계량: 모멘트와 기대값

내용 모멘트(Moment) 기대값(Expected Value) 기대값의 선형결합 확률과 주요통계량 모멘트(Moment) 확률변수와 확률 분포의 특징과 형태를 수학적으로 설명하기 위한 정량적 지표를 모멘트(moment) 라고 하며 식 1과 같이 정의합니다. $$\begin{align}\tag{1}&\text{n 차 모멘트}= E(x^n)\\ &n= 1, 2, \cdots \end{align}$$ 모멘트는 평균 , 분산 과 함께 왜도, 첨도 등 다양한 통계량의 유도에 사용됩니다. 기대값(Expected Value) 평균은 변수들의 특성을 파악하기 위해 가장 많이 사용되는 통계량입니다. 이 통계량은 각 변수값에 대한 확률을 고려하는 것으로 기대값(expected value, E(X)) 이라고 합니다. 확률변수 X의 각 값은 다른 값들에 비해 그 값이 나타날 것을 가정하는 상대 가능도(relative likelihood) 즉, 확률은 특정한 함수에 의해 특정지을 수 있습니다. 그 확률함수는 변수가 이산형일 경우에는 확률질량함수(probability mass function) 이라하고 연속형일 경우에는 확률밀도함수(probability density function) 라고 구분하는데 구분없이 확률밀도함수라고 하기도 합니다. 확률밀도함수는 f(x)로 나타내며 그 함수의 합(적분)인 누적확률함수는 F(x)로 표현합니다. 이 확률밀도 함수를 사용하여 1차모멘트인 평균은 식 2와 같이 공식화 할 수 있습니다. $$\begin{align}\tag{2}&\mu=E(X)=\sum^n_{i=0} x_iP(X=x_i), \qquad P(X):\text{변수 X의 발생확률}\\ &\qquad \Updownarrow \\ &E(X^n)=\begin{cases}\sum_{x \in \mathbb{R}}x^n f(x)& \text{이산변수}\\ \int^\infty_{-\infty}x^n

확률, 순열, 그리고 조합

내용 확률 개념 확률공리 순열과 조합 (Permutation & Combination) 곱의 법칙 순열 조합 확률 개념 확률은 미래에 발생할 사건에 대한 믿음의 측정으로 과거의 데이터를 기반으로 합니다. 즉, 과거의 데이터들로 부터 전체 중에서 특정한 대상이 되는 사건의 발생 비율을 확률이라고 정의할 수 있습니다. 확률은 다음의 공리를 가집니다. 확률 공리 \label{probabilityAxiom} 0과 1 사이의 값입니다. $0 \,\le\, P(x) \,\le\, 1$ 모든 확률의 합은 1입니다. $\begin{aligned}&\sum_{x \in S} P(x) =1\\ & S=\text{모든 가능한 공간} \end{aligned}$ A: 모든 가능한 공간에 포함된 사건(들) $A \subset S, P(X \in A) = \sum_{x \in A}P(X=x)$ 실험에서 특별한 사건이 일어날 확률에 대한 개념은 다양한 방식으로 적용되고 해석될 수 있습니다. 예를 들어 내일은 비올 확률이 70%라는 예보에 대해 과거 기후 조건의 데이터들을 분석하여 오늘의 날씨와 유사한 조건에서 70%가 비가 온다는 결과로서 해석할 수 있으며 단지 예보자의 주관적인 생각의 결과로 해석할 수도 있습니다. 전자의 경우는 기존 데이터들에서 대상이 되는 사건들의 빈도로 확률을 계산하는 방식으로 빈도적 해석(frequency interpretation) 이라 하고 후자의 경우는 주관적인 추론에 의한 결과로서 주관적 해석(subjective interpretation) 이라고 합니다. 이와 같이 확률은 두 가지 시각으로 해석할 수 있으며 모든 경우에 사용되는 기본적인 용어들이 있습니다. 확률실험(random experiment,시행): 모든 사건들의 확률이 동일하다고 가정할 수 있는 시행. Ex)