기본 콘텐츠로 건너뛰기

[data analysis]로그-노말 분포(Log-normal distribution)

[data analysis] 회귀분석(Regression analysis)의 정의와 가정

회귀분석(Regression analysis)의 정의와 가정

회귀분석(Regression analysis)은 변수들간의 관계에 대한 모형을 설정하고 그 모형을 통해 새로운 값을 추정하는 통계적 방법입니다. 그림 1은 일정한 높이(x)에 대응되는 힘(y)에 대한 그래프로서 x가 증가할수록 y가 증가하는 정확한 정비례 관계를 보여줍니다. 이 관계는 일반적인 물리법칙을 적용한 것으로 높이에 따라 작용되는 힘을 정확하게 결정할 수 있습니다.

그림 1. 높이에 따른 힘의 변화.
h=np.linspace(0, 5)
f=0.1*9.8*h
plt.figure(figsize=(4,3))
plt.plot(h, f, color="g", label="F=mgh\nm:0.1 kg")
plt.xlabel("h(m)")
plt.ylabel("F(N)")
plt.legend(loc="best")
plt.show()

그림 2는 x가 증가하면서 y의 증가를 보이지만 그림 1과 같이 완전한 선으로 미지의 값에 대한 적확한 예측을 하는 것은 어렵습니다. 그림에서 나타낸 것과 같이 각 x 점에 대응하는 y 값들의 관계식은 다양하게 존재할 것입니다. 이 상황에서 새로운 x에 대한 y를 추정하기 위한 가장 적합한 식(회귀모델)을 추론하는 것이 회귀분석의 최종적인 목적입니다. 이와 같이 두 변수 사이의 관계 모형을 확정하기 어려운 경우에서의 모델 구축은 확률적으로 이루어 집니다. 다시말하면 회귀분석은 확률론적 시각으로 데이터의 특성을 이해하고 미지의 값을 추론하는 주요한 통계적 방법입니다.

그림 2 X에 대한 Y의 관계.
np.random.seed(3)
x=np.linspace(-1, 5, 100)
y=0.3*x+np.random.rand(100)
y1=0.56+0.4*x
y2=0.45+0.32*x
y3=0.2+0.44*x
y4=0.7+0.2*x
col=["brown",'b','r','k']
plt.figure(figsize=(4,3))
plt.scatter(x, y, color="g", s=20)
for i, j in enumerate([y1, y2, y3, y4]):
    plt.plot(x, j, color=col[i])
plt.xlabel("x")
plt.ylabel("y")
plt.show()

통계적 추론에는 크게 모수적 방법과 비모수방법으로 구분할 수 있습니다. 회귀분석은 기본적으로 확률에 근거한 분석으로 분석하려는 데이터들의 확률 분포를 확인 또는 가정한 후 그 분포를 기반으로 추론하는 모수(모집단의 매개변수)방법입니다. 모수적 방법을 실행할 경우 가정하는 확률분포는 매우 다양할 것으로 생각될 수 있으나 데이터의 크기 증가로 정규분포(중심극한 정리)를 가정할 수 있기 때문에 대부분의 분포에 기반되는 정규분포를 적용할 수 있습니다.

회귀 모델의 계수를 적절하게 해석하기 위해서는 다음의 통계적 가정이 필요합니다.

  • 정규성(Normality): 반응변수는 정규분포를 따릅니다.
  • 독립성(Independence): 2개 이상의 설명변수들은 각각은 독립적이어야 합니다.
  • 선형성(Linearity): 각 변수에 적용되는 함수들에 의한 결과의 합은 전체 변수의 합의 변형과 같아야 합니다. 즉, f(x+y) = f(x) + f(y), f(ax) = af(x)의 두 관계를 충족할 경우 선형성이 확보됩니다. 이 관계는 각 변수의 분포와 그 결과에 대한 분포의 평균과 분산의 관계에 적용할 수 있습니다.
  • 반응변수는 설명변수와 선형적으로 관계됩니다. 그러므로 예측값과 실측값 사이의 차이인 잔차(residual)는 특정한 경향(추세)은 존재하지 않습니다.
  • 등분산성(Homoscedasticity): 반응 변수의 분산은 설명 변수의 수준에 따라 달라지지 않습니다. 즉, 회귀계수의 변화에 따른 각 샘플의 변화가 이루는 분포의 분산은 같아야 합니다. 결과적으로 잔차 각각이 이루는 분포의 분산은 같아야 합니다.

회귀모델은 의해 설명변수와 반응변수간의 확률적 식을 구현하는 것으로 이 식에 의해 반응변수를 예측할 수 있습니다. 이 식은 확률식이므로 반응변수의 실측치와 예측치사이에 차이가 존재합니다. 모집단에서의 차이를 오차(error)라 하며 표본에서의 차이를 잔차(residual)이라 합니다.

위 가정들이 충족되지 않는다면 통계적인 p-값과 신뢰구간의 정확도는 감소됩니다.

댓글

이 블로그의 인기 게시물

유사변환과 대각화

내용 유사변환 유사행렬의 특성 대각화(Diagonalization) 유사변환(Similarity transformation) 유사변환 n×n 차원의 정방 행렬 A, B 그리고 가역 행렬 P 사이에 식 1의 관계가 성립하면 행렬 A와 B는 유사하다고 하며 이 변환을 유사 변환 (similarity transformation)이라고 합니다. $$\begin{equation}\tag{1} A = PBP^{-1} \Leftrightarrow P^{-1}AP = B \end{equation}$$ 식 1의 유사 변환은 다음과 같이 고유값을 적용하여 특성 방정식 형태로 정리할 수 있습니다. $$\begin{align} B - \lambda I &= P^{-1}AP – \lambda P^{-1}P\\ &= P^{-1}(AP – \lambda P)\\ &= P^{-1}(A - \lambda I)P \end{align}$$ 위 식의 행렬식은 다음과 같이 정리됩니다. $$\begin{align} &\begin{aligned}\textsf{det}(B - \lambda I ) & = \textsf{det}(P^{-1}(AP – \lambda P))\\ &= \textsf{det}(P^{-1}) \textsf{det}((A – \lambda I)) \textsf{det}(P)\\ &= \textsf{det}(P^{-1}) \textsf{det}(P) \textsf{det}((A – \lambda I))\\ &= \textsf{det}(A – \lambda I)\end{aligned}\\ &\begin{aligned}\because \; \textsf{det}(P^{-1}) \textsf{det}(P) &= \textsf{det}(P^{-1}P)\\ &= \t

[matplotlib] 히스토그램(Histogram)

히스토그램(Histogram) 히스토그램은 확률분포의 그래픽적인 표현이며 막대그래프의 종류입니다. 이 그래프가 확률분포와 관계가 있으므로 통계적 요소를 나타내기 위해 많이 사용됩니다. plt.hist(X, bins=10)함수를 사용합니다. x=np.random.randn(1000) plt.hist(x, 10) plt.show() 위 그래프의 y축은 각 구간에 해당하는 갯수이다. 빈도수 대신 확률밀도를 나타내기 위해서는 위 함수의 매개변수 normed=True로 조정하여 나타낼 수 있다. 또한 매개변수 bins의 인수를 숫자로 전달할 수 있지만 리스트 객체로 지정할 수 있다. 막대그래프의 경우와 마찬가지로 각 막대의 폭은 매개변수 width에 의해 조정된다. y=np.linspace(min(x)-1, max(x)+1, 10) y array([-4.48810153, -3.54351935, -2.59893717, -1.65435499, -0.70977282, 0.23480936, 1.17939154, 2.12397372, 3.0685559 , 4.01313807]) plt.hist(x, y, normed=True) plt.show()

R 미분과 적분

내용 expression 미분 2차 미분 mosaic를 사용한 미분 적분 미분과 적분 R에서의 미분과 적분 함수는 expression()함수에 의해 생성된 표현식을 대상으로 합니다. expression expression(문자, 또는 식) 이 표현식의 평가는 eval() 함수에 의해 실행됩니다. > ex1<-expression(1+0:9) > ex1 expression(1 + 0:9) > eval(ex1) [1] 1 2 3 4 5 6 7 8 9 10 > ex2<-expression(u, 2, u+0:9) > ex2 expression(u, 2, u + 0:9) > ex2[1] expression(u) > ex2[2] expression(2) > ex2[3] expression(u + 0:9) > u<-0.9 > eval(ex2[3]) [1] 0.9 1.9 2.9 3.9 4.9 5.9 6.9 7.9 8.9 9.9 미분 D(표현식, 미분 변수) 함수로 미분을 실행합니다. 이 함수의 표현식은 expression() 함수로 생성된 객체이며 미분 변수는 다음 식의 분모의 변수를 의미합니다. $$\frac{d}{d \text{변수}}\text{표현식}$$ 이 함수는 어떤 함수의 미분의 결과를 표현식으로 반환합니다. > D(expression(2*x^3), "x") 2 * (3 * x^2) > eq<-expression(log(x)) > eq expression(log(x)) > D(eq, "x") 1/x > eq2<-expression(a/(1+b*exp(-d*x))); eq2 expression(a/(1 + b * exp(-d * x))) > D(eq2, "x") a * (b * (exp(-d * x) * d))/(1 + b