[data analysis] 가상데이터 만들기 make_regression

make_regression

sklearn.datasets.make_regression() 함수는 분류용 가상 데이터를 생성합니다.

인수
- n_samples : 표본 데이터의 수, 디폴트 100
- n_features : 설명 변수의 수, 디폴트 100
- n_informative : 설명 변수 중 반응 변수와 상관 관계가 있는 성분의 수, 디폴트 2
- n_targets : 반응변수의 차원, 디폴트 1
- bias : 인위적인 편향을 지정, 디폴트 0
- effective_rank : rank는 설명변수들의 선형결합에서 독립의 수입니다. 즉, 기저벡터의 수를 나타냅니다.
  None: 기본값으로 모든 변수들이 상관성을 가짐
  정수: 지정한 수만큼의 변수들은 독립으로 상관성을 가지지 않음
- coef : 회귀계수 반환, 기본=False
- random_state : 난수 발생 시드
반환값
- X : [n_samples, n_features] 크기의 배열, 독립 변수
- y : [n_samples] 크기의 배열, 종속 변수

from sklearn.datasets import make_regression

X, y, coef = make_regression( n_samples=50, n_features=2, noise=4.0, 
    coef=True, random_state=1)
X1, y1, coef1 = make_regression( n_samples=50, n_features=2, noise=4.0, effective_rank=1,
    coef=True, random_state=3)

fix, ax = plt.subplots(1,2,figsize=(4,3))
plt.subplots_adjust(wspace=0.4)
ax[0].scatter(X[:,0],y, s=10)
ax[0].grid(True)
ax[1].scatter(X[:,1],y, s=10)
ax[1].grid(True)
plt.show()

print(coef.round(3))

[80.711 38.786]

fix, ax = plt.subplots(1,2,figsize=(4,3))
plt.subplots_adjust(wspace=0.4)
ax[0].scatter(X1[:,0], y, s=10)
ax[0].grid(True)
ax[1].scatter(X1[:,1], y, s=10)
ax[1].grid(True)
plt.show()

print(coef1.round(3))

[7.013 5.773]

댓글