기본 콘텐츠로 건너뛰기

라벨이 chi-squared인 게시물 표시

[matplotlib]quiver()함수

[ML] 마할로비스(Mahalnobis) 거리와 이상치 감지

마할로비스(Mahalnobis) 거리 마할로비스(Mahalnobis) 거리 벡터인 한점과 분포 사이의 거리를 측정하는 효과적인 다변량 거리 메트릭스 이 지표는 다변량의 이상 탐지, 높은 불균형한 데이터 세트의 분류, 단일 클래스 분류, 새로운 데이터들의 예측에 효과적입니다.2차원의 두 점사이의 거리를 나타낼 경우 일반적으로 유클리드거리가 사용됩니다. 그 두점 (p1, p2), (q1, q2)라고 하면 유클리드 거리는 다음과 같이 계산됩니다. $$\tag{식 1}d(p, q) =\sqrt{(p_1-q_1)^2+(p_1-q_2)^2}$$ 식 1을 다차원으로 확장하면 즉, $(p_1, p_2, \cdots, p_n), \;(q_1, q_2, \cdots, q_n)$ 유클리드 거리는 식 2와 같이 계산됩니다. $$\tag{식 2}d(p, q) =\sqrt{(p_1-q_1)^2+(p_1-q_2)^2+ \cdots +(p_n-q_n)^2}$$ 식 2와 같이 다차원의 경우 모든 차원에 대한 가중치는 전혀 고려되지 않습니다. 즉, 차원들 사이에 영향이 없다는 가정이 성립되어야 합니다(모든 차원은 독립적). import numpy as np import numpy.linalg as la import pandas as pd from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt import seaborn as sns sns.set_style("darkgrid") np.random.seed(3) X=np.random.normal(0, 1, 100) X1=np.linspace(-2,2, 100) y1=X1+np.random.randn(100) p1=(-1, 1) p2=(1, 1) fig, ax=plt.subplots(1, 2, figsize=(7, 3), sharey=True) ax[0].scatter(X1, X, s=5) ax[0].sc...

R 독립성 검정과 변수 간의 연관성

내용 독립성 검정(Test of Independence) chi-square 검정 Fisher's exact test Cochran-Mantel-Haenszel 검정 연관성의 측정 파이계수 분할계수(Contigency Coefficiency) Cramer's V 독립성 검정과 변수 간의 연관성 독립성 검정(Test of Independence) 다양한 통계 방법에서의 전제조건이 데이터들의 독립성에 대한 것입니다. R은 범주형 변수의 독립성을 테스트하는 여러 방법을 제공합니다. 세 가지 검정은 카이제곱 독립성 검정, Fisher 정확 검정 및 Cochran-Mantel-Haenszel 검정에 대해 알아봅니다. chi-square 검정 chisq.test() 두 변수(2-way table)에 대해 독립성 검정을 실시 귀무가설: 두 변수는 독립입니다. library(vcd) twoTable Pearson's Chi-squared test data: twoTable X-squared = 13.055, df = 2, p-value = 0.001463 위 chisq.test() 객체는 다음과 같은 속성을 포함합니다. attributes(q) $names [1] "statistic" "parameter" "p.value" "method" "data.name" "observed" [7] "expected" "residuals" "stdres" $class [1] "htest" 속성 중 관찰값을 나타내는 observed와 기대값을 나타내는 expected를 사용하여 통계량을 계산합니다. chisq분석...