기본 콘텐츠로 건너뛰기

라벨이 최소제곱법인 게시물 표시

[matplotlib]quiver()함수

함수의 그래프: 최소제곱법

다음 그림들은 전자책 파이썬과 함께하는 미분적분 의 8장에 수록된 그래프들과 코드들입니다. import numpy as np import pandas as pd from sympy import * import matplotlib.pyplot as plt import seaborn as sns sns.set_style("darkgrid") #그림 8.4.1 x=np.array([1.,2.,3.,4.]) y0=np.array([5.2, 8.9, 11.7, 16.8]) y=3.76*x+1.25 y1=3.96*x+1 y2=3.36*x+1.2 plt.figure(figsize=(8, 3)) plt.subplot(121) col=['g', 'b', 'r'] for i,j in enumerate([y, y1, y2]): if i>0: l="--" else: l="-" plt.plot(x, j, color=col[i], ls=l, label=f"fit{i+1}") plt.scatter(x, y0, s=50, c="brown", label="observed") plt.xlabel("x", fontsize=11) plt.ylabel("f(x)", rotation="horizontal",labelpad=10, fontsize=11) plt.legend(loc=(0.1, 0.6), labelcolor="linecolor", frameon=False) plt.subplot(122) plt.plot(x, y, color="g", label="reg. line") plt.scatter(x, y, s=50, c="b", label="predicted...

[Linear Analysis] 최소제곱법에 의한 수학적 모형

최소제곱법에 의한 수학적 모형 관련된 내용 최소제곱해 y=f(x)를 따르는 데이터에 대해 생각해 봅니다. $$(x_1, y_2),\, (x_2, y_2), \, \cdot, \, (x_n, y_n)$$ 위 데이터의 패턴을 찾는 것은 f(x)의 함수를 찾는 것과 같습니다. 이러한 함수를 수학적 모형이라 합니다. 이러한 함수의 몇가지 예를 나타내면 다음과 같습니다. 직선: y=ax+b 2차 다항식: y=a+bx+cx 2 3차 다항식: y=a+bx+cx 2 +dx 3 x1=symbols("x1") f=2+3*x1+4*x1**2+5*x1**3 df=f.diff(x1) ddf=df.diff(x1) x=np.linspace(-10, 10, 100) y1=[f.subs(x1, i) for i in x] y2=[df.subs(x1, i) for i in x] y3=[ddf.subs(x1, i) for i in x] fig, ax=plt.subplots(figsize=(4,3)) ax.plot(x, y1, color="r", label=r"$y=dx^{3} + cx^{2} + b x + a$") ax.plot(x, y2, color="b", label=r"$y=c x^{2} + b x + a$") ax.plot(x, y3, color="g", label=r"$y=b x + a$") ax.legend( bbox_to_anchor=(0.8,1)) ax.set_xlabel("x", loc="right") ax.set_ylabel("y", loc="top") ax.set_ylim(-200, 200) ax.spines['left'].set_position(("data", 0)) ax.spines['bottom...

[data analysis] 회귀계수의 추정: 최소제곱법(Least Square method)

최소자승법(Least Square method) 식 1의 형태인 회귀선(회귀방정식)은 설명변수에 대응하는 반응변수의 관계를 설명하기 위해 통계적으로 추정된 방정식입니다. 이 모형으로부터의 예측값 역시 통계적으로 추정된 값으로 실제로 관측된 값과는 차이가 존재합니다. 그러므로 추정값과 관측값과의 차이를 평가하여 모형의 적합성 여부를 결정할 필요가 있습니다. y = β 0 + β 1 x + ε (식 1) x: 설명변수 y: 반응변수 β 0 : 편차 β 1 : 회귀계수(가중치) ε : 오차 모형의 구성요소인 편차 β 0 와 회귀계수 β 1 은 모집단의 회귀모형에 대한 것으로 미지의 값(unknown value)인 모수이므로 표본의 통계량으로부터 추정되어야 합니다. 이를 구분하기 위해 표본집단의 편차와 회귀계수를 각각 b 0 와 b 1 로 나타내며 모수를 추정하기 위한 불편추정치(unbiased estimator) 로 사용합니다. 이 추정치들 중 관측치와 실측치의 차이인 오차(error, e) 또는 잔차(residual) 는 식 2와 같이 계산됩니다. \begin{align} e & = y − (b_0+ b_1x)\\ &=y − \hat{y}\\& e: \text{오차 또는 잔차}\\ &\hat{y}: \text{추정치}\end{align} (식 2) 자료에서 발생하는 각 샘플의 오차는 음수와 양수 모두 가능하므로 그들의 합은 0에 근접하기 때문에 회귀모형의 적합성을 위한 판단근거로 사용할 수 없습니다. 대신에 각 오차의 절대값이나 제곱값들의 합을 사용합니다. 절대값을 사용하는 경우는 1차 식이되며 제곱을 적용한 경우는 2차 식이 됩니다. 회귀모형을 나타내는 회귀선(기울기와 편차)은 다양하게 나타낼 수 있습니다( 회귀분석의 정의와 가정의 그림 2 참조 ). 오차는 회귀식과 설명변수에 반응하는 결과로서 궁극적으로 최소의 오차를 생성하는 회귀식이 최적의 모형이 됩니다. b 0 와 b 1 을 미지수로 하...