기본 콘텐츠로 건너뛰기

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

affin combination이란

f(x) =f($x_1, x_2, \cdots. x_n$)
위 함수에서 $x_1, x_2, \cdots. x_n$은 함수 f의 인수들 입니다. 이 함수는 $R^n \rightarrow R^n$의 영역에서 이루어 집니다. 즉, n 차원의 실수 집합에서  n 차원의 실수 집합에 대응하는 함수를 나타내는 것입니다.
예를 들어 4차원 실수 집합을 1차원으로 대응시키는 함수는 다음과 같이 나타냅니다.
$R^4 \rightarrow R$
f(x) = $x_1+x_2-x_4^2$
위 함수는 각 항의 계수 벡터와 변수를 원소로 하는 벡터로 나타낼 수 있습니다.
$a= \left[\begin{array}{r}1\\1\\0\\-1 \end{array}\right], \quad x=\left[\begin{array}{r}x_1\\x_2\\x_3\\x_4\end{array}\right]$
$f(x)= a^T x=\left[\begin{matrix}1&1&0&-1 \end{matrix}\right] \left[\begin{matrix}x_1\\x_2\\x_3\\x_4\end{matrix}\right]$
위 형태는 벡터와 행렬 곱에서 앞 벡터의 열의 수와 뒤 벡터의 행의 수가 일치하여야 계산 될 수 있기 때문에 열벡터인 경우 앞 벡터는 전치시켜야 합니다.
위의 표현은 다음의 경우에서도 성립됩니다.
$f(\alpha x+\beta y)=a^T(\alpha x+\beta y)=\alpha  a^T x+ \beta a ^Ty=\alpha f(x)+ \beta f(y)$
$\alpha, \beta$: scalar
위 함수는 벡터들의 선형결합입니다. Affin 결합은 이러한 선형결합의 특별한 형태입니다. 즉, 다음과 같습니다.
$c_1v_1+ c_2v_2 + \cdots +c_nv_n$
위와 같은 선형결합에서 모든 계수의 합이 1인 경우를 $c_1+c_2+\cdots+c_n=1$을 Affin combination이라고 합니다.
이 Affin 결합의 집합은 S로 나타내며 affin hall or affin span이라하며 "aff S"으로 나타냅니다.
예를 들어 affin 결합  $y=c_1v_1+c_2v_2, c_1+c_2=1$ 에서 $c_2=t$인 경우 위 식은 다음과 같이 나타낼 수 있지요.
$y=(1-t)v_1+tv_2$
위 식은 $t=0$의  경우 $y=v_1$ , $c_1=c_2$일 경우는 $ y=v_2$ 즉, 두 경우 모두 하나의 벡터를 나타냅니다. 그러나 이 경우들을 제외하고 y는 벡터 $v_1, v_2$를 포함하는 직선으로 설명할 수 있습니다.
$y=v_1+(v_2-v_1)t=p+tu$
$p=v_1, u=(v_2-v_1)$
위 식으로 나타낸 직선은 $(v_2-v_1)$의 배수를 포함하므로 Span{u}로 나타낼 수 있습니다. p는 이 선분 위에 있는 모든 점들을 이동시키는 역할을 합니다.

위 그림에서 나타낸 것과 같이 벡터 $v_1, v_2$로 생성될 수 있는 직선은 u를 기저로 하여 원점을 통과하는 직선을 $v_1$ 만큼 이동시킨 것과 같습니다. 그러므로 $y-v_1 = t(v_2-v_1)$이 됩니다.
여기서 y와 $y-v_1$의 관계는 벡터들의 affin 결합을 나타냅니다.
위의 과정은 다음과 같이 정리될 수 있습니다.
 $R^n$의 점 y가 $y-v_1$가 $v_2-v_1, \cdots, v_p-v_1$의 선형결합이면 벡터 $v_1, v_2, \cdots, v_p$의 affin combination입니다.
$y-v_1=c_2(v_2-v_1)+c_3(v_3-v_1)+ \cdots+c_p(v_p-v_1)\\=(c_2-\cdots-c_p)v_1+c_2v_2+\cdots+c_pv_p\\ y_1=(1-c_2-\cdots-c_p)v_1+c_2v_2+\cdots+c_pv_p$
위 식에서 affin combination이 되기 위해서는 계수의 합이 1이어야 하므로  $c_1=c_2-\cdots-c_p$이 된다. 그러므로 위 식은 다음과 같이 정리할 수 있습니다.
$y=c_1v_1+c_2v_2+\cdots+c_pv_p$
위 식에서 y는 $v_1, \cdots, v_p$으로 선형결합입니다. 그러므로 결과적으로 $y-v_1$은 $v_2-v_1, \cdots, v_p-v_1$의 선형결합입니다.

>>> import numpy as np
>>> import numpy.linalg as LA
>>> from sympy import *
1. 다음 4개의 벡터로 이루어진 y의 affin combination?
$v_1 =\left[\begin{matrix}1\\2\end{matrix}\right], v_2=\left[\begin{matrix}2\\5\end{matrix}\right], v_3=\left[\begin{matrix}1\\3\end{matrix}\right] , v_4= \left[\begin{matrix}-2\\2\end{matrix}\right], y=\left[\begin{matrix}4\\1\end{matrix}\right]$
y의 affin combination을 위한 계수 $c_1, c_2, c_3$를 찾기 위해
$c_2(v_2-v_1)+c_3(v_3-v_1)+ c_4(v_4-v_1)=y-v_1$
>>> v1=np.array([[1],[2]]);v1
array([[1],
       [2]])
>>> v2=np.array([[2],[5]]);v2
array([[2],
       [5]])
>>> v3=np.array([[1],[3]]); v3
array([[1],
       [3]])
>>> v4=np.array([[-2],[2]]);v4
array([[-2],
       [ 2]])
>>> y=np.array([[4],[1]]); y
array([[4],
       [1]])
>>> v2_1=v2-v1;v2_1
array([[1],
       [3]])
>>> v4_1=v4-v1;v4_1
array([[-3],
       [ 0]])
>>> v4_1=v3-v1;v4_1
array([[0],
       [1]])
>>> y_v1=y-v1; y_v1
array([[ 3],
       [-1]])
이 결과로 부터 다음 식이 성립됩니다.
$\left[\begin{matrix}1&0&3\\3&1&-1\end{matrix}\right]\left[\begin{matrix}c_1\\c_2\\c_3\end{matrix}\right]=\left[\begin{matrix}3\\-1\end{matrix}\right]$
위 식에서 해를 계산하기 위해 기약행사다리꼴 형식을 적용합니다.
>>> v=np.c_[v2_1, v3_1, v4_1]; v
array([[ 1,  0, -3],
       [ 3,  1,  0]])
>>> au=np.c_[v, y_v1];au
array([[ 1,  0, -3,  3],
       [ 3,  1,  0, -1]])
>>> Matrix(au).rref()
(Matrix([
[1, 0, -3,   3],
[0, 1,  9, -10]]), (0, 1))
위 결과에서 계수 $c_4$는 자유변수입니다. 그러므로 $c_1=1-c_2-c_3-c_4, c_2=3+3c_4, c_3=-10-9c_4$가 됩니다.
즉, 위 식은 $c_4$에 따라 다양한 선형결합이 이루어 집니다. 예를 들어
$c_4=0$ 일 경우
$y=8v_1+3v_2-10v_3$
$c_4=1$ 일 경우
$y=13v_1+6v_2-19v_3+v_4$
위 과정을 하나의 함수로 만들어 보면 다음과 같습니다.
def affinMatS(dat, seln):
    tn=list(np.arange(dat.shape[1]))
    tnSel=tn.pop(seln)
    tnM=dat[:,tn]
    tnSelM=dat[:,seln]
    t=tnM[:,0]-tnSelM
    for i in range(1, tnM.shape[1]):
        x=tnM[:,i]-tnSelM
        t=np.c_[t, x]
    return(t, Matrix(t).rref())

>>> A=np.c_[v1,v2,v3,v4, y];A #모든 벡터들을 원소로 하는 행렬 생성
array([[1, 2, 1, -2, Matrix([
[1, 0, -3,   3],
[0, 1,  9, -10]])],
       [2, 5, 3, 2, (0, 1)]], dtype=object)
>>> av, ay=affinMatS(A)
>>> av #$(v-2-v_1), \cdots$등의 새로운 벡터
array([[ 1,  0, -3,  3],
       [ 3,  1,  0, -1]])
>>> ay #$y-v_1$
(Matrix([
 [1, 0, -3,   3],
 [0, 1,  9, -10]]), (0, 1))

위 예제에서 이동시키기 위한  벡터 p 즉, $v_i$로 첫번째 벡터를 사용하였습니다. 그러나 이 벡터는 생성된 선형결합을 이동시키는 역할을 하는 것으로 위 벡터 들에서 임의적으로 선택이 가능합니다.
2. 다음 벡터들을 기반으로 하는 점 $p_1, p_2$의 affin combination?
다음 벡터들은 기저 벡터입니다. $B=\{b_1, b_2, b_3\}$
기저벡터라는 것은 이들을 기반으로 하는 선형결합은 선형독립임을 의미합니다. 즉, 유일한 해가 존재함을 나타냅니다.
$b_1=\left[\begin{matrix}4\\0\\3\end{matrix}\right], b_2=\left[\begin{matrix}0\\4\\2\end{matrix}\right], b_3=\left[\begin{matrix}5\\2\\4\end{matrix}\right], p_1=\left[\begin{matrix}2\\0\\0\end{matrix}\right], p_2=\left[\begin{matrix}1\\2\\2\end{matrix}\right]$
>>> b1=np.array([[4],[0],[3]]);b1
array([[4],
       [0],
       [3]])
>>> b2=np.array([[0],[4],[2]]);b2
array([[0],
       [4],
       [2]])
>>> b3=np.array([[5],[2],[4]]);b3
array([[5],
       [2],
       [4]])
>>> p1=np.array([[2],[0],[0]]);p1
array([[2],
       [0],
       [0]])
>>> p2=np.array([[1],[2],[2]]);p2
array([[1],
       [2],
       [2]])

>>> A=np.c_[b1,b2,b3,p1,p2 ];A 
array([[4, 0, 5, 2, 1],
       [0, 4, 2, 0, 2],
       [3, 2, 4, 0, 2]])
$p_1$에 대한 affin 결합의 경우 아래의 결과의 새로 생성된 벡터를 원소로 하는 행렬의 기약행 사다리꼴(y)로 부터 3행은 성립하지 않습니다. 
>>> x, y=affinMatS(A, 4)
>>> x 
array([[ 3, -1,  4,  1],
       [-2,  2,  0, -2],
       [ 1,  0,  2, -2]])
>>> y 
(Matrix([
 [1, 0, 2, 0],
 [0, 1, 2, 0],
 [0, 0, 0, 1]]), (0, 1, 3))
위 결과  y의 3행은 $c_1b_1+c_2b_2+c_3b_3=0+0+0=1$은 성립할 수 없으므로 모순된 식(inconsistent equation)이므로 Affin combination은 성립되지 않습니다. 그러나 $p_2$에 대한 경우 결과 y와 같이 유일해가 존재하므로 선형독립으로 선형결합이 이루어지며 각 계수의 합이 1이므로 (2/3+2/3-1/3=1) Affin combination이 성립합니다. 
>>> x, y=affinMatS(A, 3)
>>> x 
array([[ 2, -2,  3, -1],
       [ 0,  4,  2,  2],
       [ 3,  2,  4,  2]])
>>> y 
(Matrix([
 [1, 0, 0,  2/3],
 [0, 1, 0,  2/3],
 [0, 0, 1, -1/3]]), (0, 1, 2))
위 결과를 정리하면 다음과 같습니다.
$p_2-p_1=\frac{2}{3}(b_1-p_1)+\frac{2}{3}(b_2-p_1)-\frac{1}{3}(b_3-p_1)$


댓글

이 블로그의 인기 게시물

matplotlib의 그래프 종류

1. 산포도(scatter plot) plt.scatter(x, y) >>> import matplotlib.pyplot as plt >>> import numpy as np >>> data=np.random.rand(1024, 2) >>> data[:3, :] >>> plt.scatter(data[:,0], data[:,1]) >>> plt.show() 2. 막대그래프(bar chart) plt.bar(x, hight, width, align='center') 매개변수중 width에 인수를 전달하여 막대의 두께를 조절할 수 있다. 또한 align의 인수는 'center'와 'edge' 이다. 기본값은 'center'이다. 이 값은 x축의 레이블이 막대의 중간에 위치(center) 또는 왼쪽 가장자리에 위치(edge)시킨다. 코드에서 np.random.randint 는 특정한 범위내에서 지정한 갯수의 랜덤수를 생성 np.unique(배열, retrun_counts=False, axis=None) : 객체 내의 중복되지 않은 수들을 반환한다. return_counts=True이면 각 수에 대한 빈도수를 반환한다. axis를 통해 행(1), 열(0)을 선택한다. >>> x=np.random.randint(1, 6, size=100) >>> uni,count=np.unique(x, return_counts=True) >>> uni array([1, 2, 3, 4, 5]) >>> count array([25, 17, 23, 16, 19], dtype=int64) >>> plt.bar(uni, count) >>> plt.show() 위의 막대그래프의 막대의

유사변환과 대각화

내용 유사변환 유사행렬의 특성 대각화(Diagonalization) 유사변환(Similarity transformation) 유사변환 n×n 차원의 정방 행렬 A, B 그리고 가역 행렬 P 사이에 식 1의 관계가 성립하면 행렬 A와 B는 유사하다고 하며 이 변환을 유사 변환 (similarity transformation)이라고 합니다. $$\begin{equation}\tag{1} A = PBP^{-1} \Leftrightarrow P^{-1}AP = B \end{equation}$$ 식 1의 유사 변환은 다음과 같이 고유값을 적용하여 특성 방정식 형태로 정리할 수 있습니다. $$\begin{align} B - \lambda I &= P^{-1}AP – \lambda P^{-1}P\\ &= P^{-1}(AP – \lambda P)\\ &= P^{-1}(A - \lambda I)P \end{align}$$ 위 식의 행렬식은 다음과 같이 정리됩니다. $$\begin{align} &\begin{aligned}\textsf{det}(B - \lambda I ) & = \textsf{det}(P^{-1}(AP – \lambda P))\\ &= \textsf{det}(P^{-1}) \textsf{det}((A – \lambda I)) \textsf{det}(P)\\ &= \textsf{det}(P^{-1}) \textsf{det}(P) \textsf{det}((A – \lambda I))\\ &= \textsf{det}(A – \lambda I)\end{aligned}\\ &\begin{aligned}\because \; \textsf{det}(P^{-1}) \textsf{det}(P) &= \textsf{det}(P^{-1}P)\\ &= \t

sympy.solvers로 방정식해 구하기

sympy.solvers로 방정식해 구하기 대수 방정식을 해를 계산하기 위해 다음 함수를 사용합니다. sympy.solvers.solve(f, *symbols, **flags) f=0, 즉 동차방정식에 대해 지정한 변수의 해를 계산 f : 식 또는 함수 symbols: 식의 해를 계산하기 위한 변수, 변수가 하나인 경우는 생략가능(자동으로 인식) flags: 계산 또는 결과의 방식을 지정하기 위한 인수들 dict=True: {x:3, y:1}같이 사전형식, 기본값 = False set=True :{(x,3),(y,1)}같이 집합형식, 기본값 = False ratioal=True : 실수를 유리수로 반환, 기본값 = False positive=True: 해들 중에 양수만을 반환, 기본값 = False 예 $x^2=1$의 해를 결정합니다. solve() 함수에 적용하기 위해서는 다음과 같이 식의 한쪽이 0이 되는 형태인 동차식으로 구성되어야 합니다. $$x^2-1=0$$ import numpy as np from sympy import * x = symbols('x') solve(x**2-1, x) [-1, 1] 위 식은 계산 과정은 다음과 같습니다. $$\begin{aligned}x^2-1=0 \rightarrow (x+1)(x-1)=0 \\ x=1 \; \text{or}\; -1\end{aligned}$$ 예 $x^4=1$의 해를 결정합니다. solve() 함수의 인수 set=True를 지정하였으므로 결과는 집합(set)형으로 반환됩니다. eq=x**4-1 solve(eq, set=True) ([x], {(-1,), (-I,), (1,), (I,)}) 위의 경우 I는 복소수입니다.즉 위 결과의 과정은 다음과 같습니다. $$x^4-1=(x^2+1)(x+1)(x-1)=0 \rightarrow x=\pm \sqrt{-1}, \; \pm 1=\pm i,\; \pm1$$ 실수