sons dataStory

글

라벨이 상관분석인 게시물 표시

[data analysis]상관분석(Correlation analysis)

상관분석(Correlation analysis) 상관분석은 두 개 이상의 자료에 대한 상관 관계를 분석하는 것으로 분석의 모수는 상관계수(ρ) 가 됩니다. 식 1에서 나타낸 것과 같이 분석의 귀무가설은 ρ = 0입니다. 다시 말해 비교하는 자료들 사이의 상관성은 존재하지 않음을 검정하는 것입니다. H0 : ρ = 0, H1 : ρ ≠ 0 (식 1) 일반적으로 상관계수는 ρ 또는 r로 나타냅니다. 상관계수(r)에 대한 분포는 평균 0이며 범위는 [-1, 1] 이므로 그 분포의 분산은 1 - r 2 로 나타낼 수 있습니다. 이 확률변수는 경계값과 평균이 고정되므로 자유도는 n - 2인 t분포를 따릅니다. 그러나 자유도가 클 경우는 정규분포를 적용합니다. 확률변수의 표준오차와 검정통계량은 식 2로 계산됩니다. \begin{align}\text{SE}&=\sqrt{\frac{1-r^2}{n-2}}\\ \text{statistic}& = \frac{r-\mu_r}{\sqrt{\frac{1-r^2}{n-2}}}\\ & = \frac{r}{\sqrt{\frac{1-r^2}{n-2}}}\\ \text{SE}:&\,\text{표준오차}\end{align} (식 2) 식 2에서의 검정통계량은 상관계수를 표준화한 것으로 표준 정규분포 또는 표준 t 분포를 기반으로 검정합니다. 검정에 t-분포 또는 정규분포를 적용할 경우 통계량은 상관계수가 됩니다. 예 1) 일정기간의 kos와 ex의 일일 종가에 대한 상관분석을 실시합니다. ex kos 0 1260.91 2218.68 1 1270.10 2255.98 2 1279.08 2264.65 3 1271...

R 상관성(correlation)과 상관분석

내용 공분산과 상관계수 PEARSON, SPEARMAN 및 KENDALL 상관 관계 부분상관(Partial correlations) 상관 분석 상관성(correlations)과 상관분석 상관 계수는 양적 변수(quantative variables) 간의 관계를 설명하는 데 사용됩니다. ± 기호는 관계의 방향을 나타내고 크기는 관계의 강도를 나타냅니다(관계가 없는 경우 0에서 완벽하게 예측 가능한 관계인 경우 1). 예를 들어 두 변수 x1과 x2에서 x1의 변화에 따라 x2가 변화한다면 두 변수는 서로 상관성이 존재합니다. 이 상관성의 정도를 나타내는 것이 상관계수이며 이는 두 변수의 공분산(covariance)으로부터 계산됩니다. 공분산과 상관계수 공분산은 각 변수의 편차들의 곱에 대한 기대값입니다. $$\begin{equation} \text{Cov}(Y_1, Y_2)=E[(Y_1-\mu_1)(Y_2-\mu_2)] \end{equation}$$ $$\begin{align}&\begin{aligned}\text{Cov}(Y_1, Y_2)&=E[(Y_1-\mu_1)(Y_2-\mu_2)]\\&=E(Y_1Y_2-Y_1\mu_2-\mu_1 Y_2+\mu_1 \mu_2)\\&= E(Y_1Y_2)-E(Y_1)\mu_2-\mu_1E(Y_2)+\mu_1 \mu_2\\&=E(Y_1Y_2)-\mu_1 \mu_2\end{aligned} \\& \because\; E(Y_1)=\mu_1, \quad E(Y_2)=\mu_2\end{align}$$ 두 변수간의 공분산의 절대값의 증가에 따라 선형 의존성은 증가하며 양의 공분산은 정상관계, 음의 값은 역상관계를 의미합니다. 공분산이 0이라면 두 변수 사이의 선형의존성은 없습니다. 그러나 각 변수의 측정척도가 다른 경우 선형성에 대한 즉, 두 변수의 의존성에 대해 공분산을 절대적인 척도로 사용하는 것은 어렵습니다. 결과적으로 공분산만으로 선형성의 정도를 ...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

[data analysis]상관분석(Correlation analysis)

R 상관성(correlation)과 상관분석