기본 콘텐츠로 건너뛰기

라벨이 공분산인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 분산과 공분산의 계산

분산과 공분산의 계산 대수적으로 분산($\sigma^2$)과 공분산(COV)은 식 1과 같이 계산됩니다. \begin{align} \tag{식 1}\sigma^2&=\frac{1}{N-1} (x-\mu)^2\\ \text{Cov(x, y)}&=\frac{1}{N-1}(x-\mu_x)(y-\mu_y)\end{align} 즉, 분산은 관찰값 자신이 평균과 떨어져 있는 정도를 나타내며 공분산은 두 관찰값이 평균에 대한 변화정도를 나타내는 지표입니다. 아래에서 각 값 $x_1, x_2, x_3$가 평균을 고려한 값(관찰값-평균)이라면 그 값들의 벡터와 전치벡터의 곱은 분산과 공분산을 나타냅니다. x1,x2,x3=symbols("x1,x2,x3") A=Matrix(3,1,[x1,x2,x3]);A $\left[\begin{matrix}x_{1}\\x_{2}\\x_{3}\end{matrix}\right]$ A*A.T $\left[\begin{matrix}x_{1}^{2} & x_{1} x_{2} & x_{1} x_{3}\\x_{1} x_{2} & x_{2}^{2} & x_{2} x_{3}\\x_{1} x_{3} & x_{2} x_{3} & x_{3}^{2}\end{matrix}\right]$ 위 결과에서 대각원소들은 각 변수의 분산, 대각외요소들은 두 변수간의 공분산을 나타냅니다. 식 1로 계산되는 분산과 공분산을 벡터 또는 행렬로 구성되는 데이터로부터 다시 고려해 봅니다. 식 2는 $n \times p$ 차원인 관측값 S를 행렬로 나타낸 것입니다. 각 열은 변수이고 각 행은 샘플(인스턴스)이라고 합니다. 즉, 식 2는p개의 변수와 n개의 샘플로 구성된 것입니다. $$\tag{식 2}S=\begin{bmatrix}x_{11} &x_{12} &\cdots & x_{1p}\\x_{21} &x_{22} &\cdots & x_{2p}\\\vdot...

[data analysis] 공분산과 상관계수

공분산과 상관계수 연속변수일 경우 $\chi^2$ 검정 의 대상이 되는 교차표를 작성할 수 없습니다. 대신에 상관분석을 적용할 수 있습니다. 상관분석 은 두 개 혹은 그 이상의 연속변수들 사이의 관계를 측정하는 분석 방법입니다. 두 변수의 상관성을 시각적으로 나타내기 위해 산포도를 사용합니다. 그림 1의 (a)는 x와 y의 정비례 관계가 명확합니다. 반면에 (b)의 경우는 반비례관계를 보이며 (c)의 경우는 x와 y 사이에 어떠한 비례 관계를 특정할 수 없습니다. 이러한 관계는 상관계수라는 통계량을 사용하여 정량적으로 나타낼 수 있으며 이는 두 변수의 공분산과 각각의 표준편차와 관계됩니다. 그림 1. 두 변수의 (a) 정상관계 (b)역상관계 (c)상관성없음. plt.figure(figsize=(9, 4)) col=["blue","red","green"] lab=["a) direct","b) inverse", "c) no"] yT=[y, y1, y2] for i in range(3): plt.subplot(1,3,i+1) plt.scatter(x, yT[i], s=15, color=col[i]) plt.title(f"{lab[i]} proportion", fontsize=15) plt.xticks([]) plt.yticks([]) plt.xlabel("x") if i==0: plt.ylabel("y") plt.show() 그림 1(a)에서 각 변수의 평균들 μ x , μ y 와 임의의 점 x, y 사이에 각각의 편차를 x - μ x , y - μ y 를 측정합니다(식 1). 이 경우 x의 증가와 함께 y의 증가가 관찰되므로 두 편차의 곱 (x - μ x )(y -μ y )는 각각의 편차보다 증가하며 양수가 될 것입니다. 같은 ...

R 상관성(correlation)과 상관분석

내용 공분산과 상관계수 PEARSON, SPEARMAN 및 KENDALL 상관 관계 부분상관(Partial correlations) 상관 분석 상관성(correlations)과 상관분석 상관 계수는 양적 변수(quantative variables) 간의 관계를 설명하는 데 사용됩니다. ± 기호는 관계의 방향을 나타내고 크기는 관계의 강도를 나타냅니다(관계가 없는 경우 0에서 완벽하게 예측 가능한 관계인 경우 1). 예를 들어 두 변수 x1과 x2에서 x1의 변화에 따라 x2가 변화한다면 두 변수는 서로 상관성이 존재합니다. 이 상관성의 정도를 나타내는 것이 상관계수이며 이는 두 변수의 공분산(covariance)으로부터 계산됩니다. 공분산과 상관계수 공분산은 각 변수의 편차들의 곱에 대한 기대값입니다. $$\begin{equation} \text{Cov}(Y_1, Y_2)=E[(Y_1-\mu_1)(Y_2-\mu_2)] \end{equation}$$ $$\begin{align}&\begin{aligned}\text{Cov}(Y_1, Y_2)&=E[(Y_1-\mu_1)(Y_2-\mu_2)]\\&=E(Y_1Y_2-Y_1\mu_2-\mu_1 Y_2+\mu_1 \mu_2)\\&= E(Y_1Y_2)-E(Y_1)\mu_2-\mu_1E(Y_2)+\mu_1 \mu_2\\&=E(Y_1Y_2)-\mu_1 \mu_2\end{aligned} \\& \because\; E(Y_1)=\mu_1, \quad E(Y_2)=\mu_2\end{align}$$ 두 변수간의 공분산의 절대값의 증가에 따라 선형 의존성은 증가하며 양의 공분산은 정상관계, 음의 값은 역상관계를 의미합니다. 공분산이 0이라면 두 변수 사이의 선형의존성은 없습니다. 그러나 각 변수의 측정척도가 다른 경우 선형성에 대한 즉, 두 변수의 의존성에 대해 공분산을 절대적인 척도로 사용하는 것은 어렵습니다. 결과적으로 공분산만으로 선형성의 정도를 ...