sons dataStory

글

라벨이 평균인 게시물 표시

[data analysis] 분산과 공분산의 계산

분산과 공분산의 계산 대수적으로 분산($\sigma^2$)과 공분산(COV)은 식 1과 같이 계산됩니다. \begin{align} \tag{식 1}\sigma^2&=\frac{1}{N-1} (x-\mu)^2\\ \text{Cov(x, y)}&=\frac{1}{N-1}(x-\mu_x)(y-\mu_y)\end{align} 즉, 분산은 관찰값 자신이 평균과 떨어져 있는 정도를 나타내며 공분산은 두 관찰값이 평균에 대한 변화정도를 나타내는 지표입니다. 아래에서 각 값 $x_1, x_2, x_3$가 평균을 고려한 값(관찰값-평균)이라면 그 값들의 벡터와 전치벡터의 곱은 분산과 공분산을 나타냅니다. x1,x2,x3=symbols("x1,x2,x3") A=Matrix(3,1,[x1,x2,x3]);A $\left[\begin{matrix}x_{1}\\x_{2}\\x_{3}\end{matrix}\right]$ A*A.T $\left[\begin{matrix}x_{1}^{2} & x_{1} x_{2} & x_{1} x_{3}\\x_{1} x_{2} & x_{2}^{2} & x_{2} x_{3}\\x_{1} x_{3} & x_{2} x_{3} & x_{3}^{2}\end{matrix}\right]$ 위 결과에서 대각원소들은 각 변수의 분산, 대각외요소들은 두 변수간의 공분산을 나타냅니다. 식 1로 계산되는 분산과 공분산을 벡터 또는 행렬로 구성되는 데이터로부터 다시 고려해 봅니다. 식 2는 $n \times p$ 차원인 관측값 S를 행렬로 나타낸 것입니다. 각 열은 변수이고 각 행은 샘플(인스턴스)이라고 합니다. 즉, 식 2는p개의 변수와 n개의 샘플로 구성된 것입니다. $$\tag{식 2}S=\begin{bmatrix}x_{11} &x_{12} &\cdots & x_{1p}\\x_{21} &x_{22} &\cdots & x_{2p}\\\vdot...

[data analysis]중심척도: 평균(Mean)

중심척도 관련내용 최빈값(Mode) 평균(Mean) 중간값(Median) 평균(Mean) 연속형 변수의 경우 데이터 셋의 최빈값을 결정할 수 없습니다. 대신에 식 1과 같이 계산한 산술평균(average)을 중심의 척도로서 사용합니다. 일반적으로 산술평균을 평균(mean, μ) 이라 합니다. $$\mu=\frac{\sum^N_{i=0} x_i}{N}$$ (식 1) 식 1에서 N은 데이터의 총수, x는 데이터 값을 나타냅니다. 예를 들어 다음은 한 학생의 1, 2학기의 중간과 기말의 등급은 [6, 8, 9, 5]입니다.이들의 평균을 계산하면 식 2와 같습니다. μ = 6 + 8 + 9 + 5 (식 2) 4 평균은 다음 코드와 같이 반복문을 사용하여 계산할 수 있지만 python의 다양한 패키지에서 제공하는 평균 산출을 위한 함수나 메소드를 사용할 수 있습니다. 다음 코드는 np.mean() 함수를 적용한 결과입니다. id="npMean"> numpy.mean(x, axis=none, skipna=na) 객체 x는 numpy array 형 지정한 축을 기준으로 산술평균을 계산 (= x.mean(axis=none) ) x.mean()의 경우 객체 x는 array, pandas 자료형인 DataFrame, Series 형 모두 가능 axis: 연산 기준 축 지정, axis: 0(기본값, 열평균), 1(행평균) 자료가 결측치를 포함할 경우 처리 방식을 인자 skipna에 지정하며 기본값은 결측치를 무시합니다. grade=[6, 8, 9, 5] total=0 for i in grade: total +=i total 28 mu=total/len(grade); mu 7.0 np.mean(grade) 7.0 예) 다음의 빈도표로부터 평균을 계산합니다. 값 빈도 2 4 5 8 8 ...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

[data analysis] 분산과 공분산의 계산

[data analysis]중심척도: 평균(Mean)