Son's Data story

글

라벨이 variation인 게시물 표시

다항식 회귀(Polynomial Regression)

내용 다항식회귀? 변수의 변환 변수의 차수에 따른 변화 편향/분산 트레이드오프(Bias/Variance Tradeoff) 다항식 회귀(Polynomial Regression) 다항식회귀? 데이터가 비선형인 경우 선형 모델에 적합시킬 수 있습니다. 가장 간단한 형태로 데이터를 이차형식으로 변형하여 선형모델에 적용할 수 있습니다. 이러한 기법을 다항식 회귀 (polynomial regression)이라고 합니다. 예를 들어 독립변수와 반응변수의 형태가 이차형태를 가지는 인공데이터에 대해 다항식 회귀를 적용하여 봅니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt font1={'family':'nanumgothic', 'size':12, 'weight':'bold'} n=100 X=np.linspace(-2, 2, n).reshape(-1,1) y=X**2+X+2+np.random.rand(n, 1) plt.figure(dpi=100) plt.scatter(X,y, s=1) plt.xlabel("X", weight="bold") plt.ylabel("y", weight="bold") plt.show() 변수의 변환 위의 독립변수의 이차항을 생성하기 위해 sklearn.preprocessing.PloynomialFeatures(degree=2, interaction_only=False, include_bias=True) 클래스를 적용합니다. 이 클래스는 변수의 2차항과 1차항 그리고 교차항을 생성합니다. 예를 들어 2개(a, b)의 독립변수가 존재한다면 이 클래스에서 다음의 변수들이 생성됩니다. a, b → 편차항, a 2 , a, ab, b, b 2 즉, 이 클래스에

자세한 내용 보기

변동(Variation)

내용 범위(Range) 4분위수(quantile) 평균절대편차(MAD) 분산(Variance) 표준편차(Standard Deviation) 자유도(Degree of Freedom) 분산계수(Variation Coefficient) 변동(Variation) 변동(variation) 또는 스프레드(spread) 는 데이터들의 퍼짐 정도를 나타내는 것으로서 자료의 특성을 설명하는 기본 정보 입니다. 평균 등의 위치정보와 함께 변동을 사용하여 자료의 분포를 설명할 수 있습니다. 예를 들어 다음 자료는 일정기간의 코스피 주식 가격에 대한 자료입니다. 이 자료는 연속형이지만 다음 표와 같이 각 값들을 특정 구간으로 구분하여 목록변수로 전환한 것입니다. 목록 구간 하한 상한 1 2958.12 2978.12 2 2978.12 2998.12 3 2998.12 3018.12 4 3018.12 3038.12 5 3038.12 3058.12 6 3058.12 3078.12 7 3078.12 3098.12 8 3098.12 3118.12 9 3118.12 3138.12 10 3138.12 3158.12 11 3158.12 $\sim$ 파이썬 라이브러리 FinanceDataReader 를 사용하여 다양한 금융자료를 가져올 수 있습니다. 다음 자료는 이 라이브러리의 DataReader() 함수를 사용하여 지정한 기간의 코스피 주가를 호출한 것입니다. 이 데이터는 연속형이므로 목록형으로 전환하기 위해 pd.cut() 함수를 사용합니다. 이 함수는 구간을 지정하여 각 인스턴스에 대한 목록화된 결과를 첫번째, 두번째로 각 구간의 경계점을 반환합니다. 또한 np.histogram() 을 사용하여 각 구간의 빈도수를 나타낼 수 있습니다. import nu

자세한 내용 보기

Son's Data story

이 블로그 검색

글

통계관련 함수와 메서드 사전

다항식 회귀(Polynomial Regression)

변동(Variation)