make_regression
sklearn.datasets.make_regression()
함수는 분류용 가상 데이터를 생성합니다.
- 인수
- n_samples : 표본 데이터의 수, 디폴트 100
- n_features : 설명 변수의 수, 디폴트 100
- n_informative : 설명 변수 중 반응 변수와 상관 관계가 있는 성분의 수, 디폴트 2
- n_targets : 반응변수의 차원, 디폴트 1
- bias : 인위적인 편향을 지정, 디폴트 0
- effective_rank : rank는 설명변수들의 선형결합에서 독립의 수입니다. 즉, 기저벡터의 수를 나타냅니다.
None: 기본값으로 모든 변수들이 상관성을 가짐
정수: 지정한 수만큼의 변수들은 독립으로 상관성을 가지지 않음 - coef : 회귀계수 반환, 기본=False
- random_state : 난수 발생 시드
- 반환값
- X : [n_samples, n_features] 크기의 배열, 독립 변수
- y : [n_samples] 크기의 배열, 종속 변수
from sklearn.datasets import make_regression
X, y, coef = make_regression( n_samples=50, n_features=2, noise=4.0, coef=True, random_state=1) X1, y1, coef1 = make_regression( n_samples=50, n_features=2, noise=4.0, effective_rank=1, coef=True, random_state=3)
fix, ax = plt.subplots(1,2,figsize=(4,3)) plt.subplots_adjust(wspace=0.4) ax[0].scatter(X[:,0],y, s=10) ax[0].grid(True) ax[1].scatter(X[:,1],y, s=10) ax[1].grid(True) plt.show()
print(coef.round(3))
[80.711 38.786]
fix, ax = plt.subplots(1,2,figsize=(4,3)) plt.subplots_adjust(wspace=0.4) ax[0].scatter(X1[:,0], y, s=10) ax[0].grid(True) ax[1].scatter(X1[:,1], y, s=10) ax[1].grid(True) plt.show()
print(coef1.round(3))
[7.013 5.773]
댓글
댓글 쓰기