[data analysis] 공분산과 상관계수

공분산과 상관계수

연속변수일 경우 $\chi^2$ 검정의 대상이 되는 교차표를 작성할 수 없습니다. 대신에 상관분석을 적용할 수 있습니다. 상관분석은 두 개 혹은 그 이상의 연속변수들 사이의 관계를 측정하는 분석 방법입니다.

두 변수의 상관성을 시각적으로 나타내기 위해 산포도를 사용합니다. 그림 1의 (a)는 x와 y의 정비례 관계가 명확합니다. 반면에 (b)의 경우는 반비례관계를 보이며 (c)의 경우는 x와 y 사이에 어떠한 비례 관계를 특정할 수 없습니다. 이러한 관계는 상관계수라는 통계량을 사용하여 정량적으로 나타낼 수 있으며 이는 두 변수의 공분산과 각각의 표준편차와 관계됩니다.

plt.figure(figsize=(9, 4))
col=["blue","red","green"]
lab=["a) direct","b) inverse", "c) no"]
yT=[y, y1, y2]
for i in range(3):
    plt.subplot(1,3,i+1)
    plt.scatter(x, yT[i], s=15, color=col[i])
    plt.title(f"{lab[i]} proportion", fontsize=15)
    plt.xticks([])
    plt.yticks([])
    plt.xlabel("x")
    if i==0:
        plt.ylabel("y")
plt.show()

그림 1(a)에서 각 변수의 평균들 μ_x, μ_y와 임의의 점 x, y 사이에 각각의 편차를 x - μ_x, y - μ_y를 측정합니다(식 1). 이 경우 x의 증가와 함께 y의 증가가 관찰되므로 두 편차의 곱 (x - μ_x)(y -μ_y)는 각각의 편차보다 증가하며 양수가 될 것입니다. 같은 과정을 그림 (b)에 적용한다면 두 편차의 곱은 음수가 될 것입니다. 그림 (c)의 경우에서는 두 편차의 곱의 부호를 특정할 수 없습니다. 결과적으로 (x - μ_x)(y - μ_y)는 두 변수 X, Y의 선형 의존성을 나타내는 지표가 되며 이 편차 곱의 기대값 E[(x - μ_x)(y - μ_y)]를 공분산(covariance)이라고 합니다. 다시말하면 공분산은 변수들 각각의 분포의 변화가 결합분포에 미치는 영향을 나타내는 것입니다.

Cov(X, y) = E[(X − μ_x)(Y − μ_y)]

(식 1)

식 1의 전개로 보다 간편한 식으로 공분산을 계산할 수 있습니다(식 2).

Cov(X, y)	= E(XY − Xμ_y − Yμ_x + μ_xμ_y)	(식 2)
	= E(XY) − E(X)μ_y − E(Y)μ_x + μ_xμ_y
	= E(XY) − μ_xμ_y
∵ E(X) = μ_x, E(Y) = μ_y

공분산 절대값의 증가에 따라 선형 의존성은 증가하며 양의 공분산은 정상관계, 음의 값은 역상관계를 의미합니다. 공분산 0는 두 변수 사이의 선형의존성은 없음을 의미합니다. 그러나 2개 이상의 변수들 사이에 계산되는 공분산은 각 변수의 스케일의 차이(단위에 의한 차이)로 인해 절대적인 의존도 척도로 사용하기 어렵습니다. 그러므로 여러 공분산들의 비교가 어렵습니다. 이러한 문제는 값을 표준화하고 공분산과 관련된 양인 피어슨 상관 계수(Pearson correlation coefficient, ρ)를 사용하는 것으로 해결 할 수 있습니다(식 3).

$$ρ = \frac{\text{Cov(X, Y)}}{\rho_x \rho_y}$$

(식 3)

식 3에서 σ_x와 σ_y는 각각 X, Y의 표준편차이며 ρ는 [-1, 1]의 범위에 존재합니다. 결과인 상관계수의 부호는 공분산의 부호와 같으며 표 1과 같이 정리됩니다.

표 1 상관계수
상관계수	의미
ρ = 1	완벽한 정관계
0 < ρ < 1	정관계
ρ = 0	상관성 없음
-1 < ρ < 0	역관계
ρ = -1	완벽한 역관계

표 1에 나타낸 것과 같이 두 변수의 상관성이 없다는 것은 "공분산 = 0"임을 의미합니다. 이것은 두 변수가 서로 독립임을 의미합니다. 즉, 두 변수가 독립인 경우 식 4가 성립합니다.

Cov(X,Y) = 0 ⇒ E(XY) = E(X)E(Y)

(식 4)

예 1)

두 자료에 대한 공분산과 상관계수를 계산합니다.

	ex	kos
0	0.729	1.681
1	0.707	0.384
2	-0.625	1.118
3	0.244	2.630
4	-1.672	0.048
⋮	⋮	⋮

자료는 다음의 코드를 사용하여 호출한 것으로 연속변수입니다.(FinanceDataReader 참조)

st=pd.Timestamp(2023,1,1)
et=pd.Timestamp(2025, 5, 30)
kos=fdr.DataReader('KS11', st, et)["Close"]
ex=fdr.DataReader('USD/KRW',st, et)["Close"]
kos=kos.pct_change()[1:]*100
ex=ex.pct_change()[1:]*100
data=pd.concat([ex, kos.shift(periods=-1)], join="inner", axis=1)
data.index=range(len(data))
data.columns=['ex', 'kos']
data=data.dropna()
data.head()

	ex	kos
0	0.152338	-1.132034
1	0.229837	1.176494
2	0.544509	-0.953332
3	-0.738113	0.022548
4	0.101093	1.540630

두 자료에 대한 관계를 나타내는 산점도(scatter)는 그림 2와 같습니다. 그림 2에 의한 두 데이터 사이에 상관관계를 결정은 모호합니다. 이러한 모호성을 개선하기 위해 공분산과 상관계수를 계산해 봅시다.

위 객체 data의 공분산은 식 2를 적용하여 산출할 수 있습니다. 즉, E(kos·ex)과 μ_kos·μ_ex를 계산합니다. 한 객체내의 여러 열 또는 행들의 곱은 객체.product(axis) 함수를 적용하여 계산할 수 있습니다.

mu=data.mean(axis=0); mu

ex     0.032484
kos    0.073461
dtype: float64

cov=data.product(axis=1).mean()-mu.product()
cov.round(3)

-0.027

식 1의 공분산 계산은 식 5와 같이 행렬 형태의 자료에 대한 행렬곱으로 연산할 수 있습니다. 이 연산은 행렬(자료)에 대해 행과 열을 교환한 전치행렬과의 행렬곱(X^TX)을 적용합니다. 이 연산의 결과는 대각외 요소들은 각 변수의 제곱합이며 대각 원소는 동일한 인덱스의 값들의 곱의 합이 됩니다.

\begin{align}& X^T=\begin{bmatrix}x_1-\mu_x& \cdots & x_n-\mu_x\\y_1-\mu_y& \cdots & y_n-\mu_y \end{bmatrix}, \quad X=\begin{bmatrix}x_1-\mu_x& y_1-\mu_y\\ \vdots & \vdots \\ x_n-\mu_x& y_n-\mu_y \end{bmatrix} \\& X^TX=\begin{bmatrix} \sum^n_{i=1}(x_i-\mu_x)^2& \sum^n_{i=1}(x_i-\mu_x)(y_i-\mu_y)\\ \sum^n_{i=1}(x_i-\mu_x)(y_i-\mu_y) & \sum^n_{i=1}(y_i-\mu_y)^2 \end{bmatrix}\end{align}

(식 5)

식 6은 식 5의 결과인 X^TX를 객체의 크기로 나눈 결과입니다. 이 결과는 대각요소들을 기준으로 대칭인 대칭행렬이며 공분산행렬(covariance matrix)이라고 합니다. 이 행렬의 대각요소는 각 자료의 분산을 나타내며 대각외 요소는 두 자료의 공분산을 나타냅니다.

\begin{align}\text{Cov Matrix} & = \frac{X^TX}{n}\\ & = \begin{bmatrix} \frac{\sum^n_{i=1}(x_i-\mu_x)^2}{n} & \frac{\sum^n_{i=1}(x_i-\mu_x)(y_i-\mu_y)}{n}\\ \frac{\sum^n_{i=1}(x_i-\mu_x)(y_i-\mu_y)}{n} & \frac{\sum^n_{i=1}(y_i-\mu_y)^2}{n} \end{bmatrix}\\& = \begin{bmatrix}\text{Var}_x & \text{Cov}_{xy}\\\text{Cov}_{xy} & \text{Var}_y \end{bmatrix} \end{align}

(식 6)

표본에서는 식 6과 같이 전체 샘플수를 사용하는 대신 자유도를 적용합니다. 그러므로 data에 대한 공분산행렬은 다음과 같습니다.

daMu=data.values-mu.values.reshape(-1, 2)
print(np.around(np.dot(daMu.T, daMu)/(len(daMu)-1), 3))

[[ 0.324 -0.027]
 [-0.027  0.961]]

위의 공분산행렬은 pd객체.cov() 함수에 의해 계산됩니다.

cov=data.cov()
np.round(cov, 3)

	ex	kos
ex	0.324	-0.027
kos	-0.027	0.961

상관계수는 공분산을 각 자료의 표준편차의 곱으로 나누어 준 결과입니다. 그러므로 식 6의 공분산 행렬에 대해 표준편차를 고려하면 상관행렬(correlation matrix)이 생성됩니다(식 7).

$$\text{Cor Matrix} =\begin{bmatrix}\frac{\text{Var}_x}{\sigma_x} & \frac{\text{Cov}_{xy}}{\sigma_x \sigma_y}\\\frac{\text{Cov}_{xy}}{\sigma_x \sigma_y} & \frac{\text{Var}_y}{\sigma_y} \end{bmatrix}$$

(식 7)

s=data.std(axis=0).values.reshape(1,2)
print(s.round(3))

[[0.569 0.98 ]]

smat=np.dot(s.T, s)
print(smat.round(3))

[[0.324 0.558]
 [0.558 0.961]]

corCoef=cov/smat
np.around(corCoef, 3)

	ex	kos
ex	1.000	-0.049
kos	-0.049	1.000

상관계수는 pandas객체.corr() 메서드로 계산됩니다.

corCoef2=data.corr()
np.around(corCoef2, 3)

	ex	kos
ex	1.000	-0.049
kos	-0.049	1.000

위 정량적인 결과는 ex와 kos 자료간에 상관관계가 매우 약함을 나타내며 그림 2의 모호성을 개선시킵니다. 그러나 이 결과 역시 두 변수의 상관관계에 명확한 근거를 제시하는데 모호합니다. 그러므로 상관계수 0.05는 상관관계가 없음의 유무를 위한 명확한 판단을 내리기 위해 가설 검정을 실시합니다.

sympy.solvers로 방정식해 구하기

sympy.solvers로 방정식해 구하기 대수 방정식을 해를 계산하기 위해 다음 함수를 사용합니다. sympy.solvers.solve(f, *symbols, **flags) f=0, 즉 동차방정식에 대해 지정한 변수의 해를 계산 f : 식 또는 함수 symbols: 식의 해를 계산하기 위한 변수, 변수가 하나인 경우는 생략가능(자동으로 인식) flags: 계산 또는 결과의 방식을 지정하기 위한 인수들 dict=True: {x:3, y:1}같이 사전형식, 기본값 = False set=True :{(x,3),(y,1)}같이 집합형식, 기본값 = False ratioal=True : 실수를 유리수로 반환, 기본값 = False positive=True: 해들 중에 양수만을 반환, 기본값 = False 예 $x^2=1$의 해를 결정합니다. solve() 함수에 적용하기 위해서는 다음과 같이 식의 한쪽이 0이 되는 형태인 동차식으로 구성되어야 합니다. $$x^2-1=0$$ import numpy as np from sympy import * x = symbols('x') solve(x**2-1, x) [-1, 1] 위 식은 계산 과정은 다음과 같습니다. $$\begin{aligned}x^2-1=0 \rightarrow (x+1)(x-1)=0 \\ x=1 \; \text{or}\; -1\end{aligned}$$ 예 $x^4=1$의 해를 결정합니다. solve() 함수의 인수 set=True를 지정하였으므로 결과는 집합(set)형으로 반환됩니다. eq=x**4-1 solve(eq, set=True) ([x], {(-1,), (-I,), (1,), (I,)}) 위의 경우 I는 복소수입니다.즉 위 결과의 과정은 다음과 같습니다. $$x^4-1=(x^2+1)(x+1)(x-1)=0 \rightarrow x=\pm \sqrt{-1}, \; \pm 1=\pm i,\; \pm1$$ 실수...

sons dataStory

이 블로그 검색

[matplotlib]quiver()함수

[data analysis] 공분산과 상관계수

공분산과 상관계수

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

[sympy] Sympy객체의 표현을 위한 함수들

sympy.solvers로 방정식해 구하기