기본 콘텐츠로 건너뛰기

라벨이 제곱평균인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 회귀모형의 평가

회귀모형의 평가 회귀분석은 확률에 기반한 것으로 그 모형에 의한 추정값은 관측값과 차이를 발생시킵니다. 모형의 평가는 그 차이의 수준을 용인할 수 있는지에 대한 평가로서 앞서 소개한 분산분석 을 적용합니다. 분산분석은 여러개의 그룹 (변수)들 사이에 일어나는 각각의 변동(분산)을 비교하여 일반적으로 일어날 수 있는 수준인지를 판단하는 것입니다. 그림 1에 나타낸 것과 같이 관측치 y의 불편추정치(unbiased estimator)로 그 값들의 평균 $\bar{y}$이 사용됩니다. 평균값이 회귀모형에 의한 예측치 $\hat{y}$와 일치한다면 회귀분석의 의미는 없어집니다. 즉, 회귀모델이 적합하다면 평균과 추정치 사이에 차이가 발생하며 추정치와 관측치 사이에 오차가 발생됩니다. 적합한 회귀모형에 의한 반응변수의 평균과 예측값 그리고 관측값(y) 사이의 관계는 식 1과 같이 정의할 수 있습니다. $$(\bar{y}-y)^2=(\bar{y}-\hat{y})^2+(\bar{y}-y)^2+\alpha$$ (식 1) 그림 1. 회귀모델에서의 SST, SSReg, SSE. x=np.linspace(-1, 2, 100) y=x+0.5 plt.figure(figsize=(4,3)) plt.plot(x, y, color="g", label="regression") plt.hlines(1.7, -1, 2, color="k", ls="--", label="mean line") plt.scatter(0.25, 1.7, s=20, color="k", label=r"$\bar{y}$") plt.scatter(0.25, 0.75, s=20, color="r", label=r"$\hat{y}$") plt.scatter(0.25, 0, s=20, color="b", label=r"$y...

[data analysis] 일원분산분석(One-way ANOVA)

일원분산분석(One-way ANOVA) 관련된 내용 분산분석 (Analysis of variance)의 개요 일원분산분석(one-way ANOVA) 사후분석(Post-hoc test) 이원분산분석(two-way ANOVA) 분산분석의 귀무가설은 다음과 같습니다. H0 : µ 1 = µ 2 = · · · = µ n 분산분석을 위해 다음을 가정합니다. 각 모집단은 정규분포를 따릅니다. 모든 모집단의 분산은 동일합니다. 관측치들은 독립적이어야 합니다. 위의 정규성 가정은 각 그룹에 대응하는 모집단을 검정하는 것은 어렵기 때문에 모델의 잔차에 대한 검정으로 대신합니다. 또한 독립성은 자료의 수집단계의 정보에 의해 판단되는 것으로 분석 중에 그 검정은 쉽지 않습니다. 표 1에서 나타낸 것과 같이 one-way ANOVA는 각 factor에 포함되는 수준 즉 처리(treatment, 요인수준)가 없습니다. 그러므로 일원분산분석에서는 요인과 treatment가 같으며 각 요인에 포함된 값들(반응변수)을 그룹화합니다. 이 구조에서 각 그룹내의 변동과 각 요인들 사이의 변동을 비교합니다. 표 1 일원분산분석을 위한 자료구조 요인(처리) 1 2 … t 반응(값) x 11 x 12 … x 1t x 21 x 22 … x 2t ⋮ ⋮ ⋮ ⋮ x n1 x n2 … x nt 평균 X 1 X 2 … X .t 총평균 X .. 표 1로부터 각 값들은 식 1과 같이 일반화한 모형으로 나타낼 수 있습니다. x ij  = μ j + e ij (식 1) x ij : 각 값 μ j : 그룹 j의 평균 e ij : x ij 에 대응하는 오차 i:1, 2,…, n(그룹내 값의 수) j:1, 2, …, t(그룹의 수) 이 모형에서 각 변수는 독립적이고 정규분포에 부합한다고 가정했으므로 오차항(e) 역시 평균이 0이고 일정한 분산을 가진 정규분...