기본 콘텐츠로 건너뛰기

라벨이 analysis인 게시물 표시

[matplotlib]quiver()함수

데이터 특성찿기

다음 테이블에서 속성(attribute)는 설명변수(독립변수), 라벨(labels)은 반응변수(종속변수)를 나타낸다. 사용자ID 속성1 속성2 속성3 라벨 0 1 6.5 Male 12 120 1 4 4.2 Female 17 270 2 7 5.7 Male 3 75 3 8 5.8 Female 8 60 위의 데이터는 행과 열로 구성되어 있다.  각 행은 각 사용자에 속한 속성들을 나타내고 이는  instance, example, observation으로 명명된다.  열은 다양한 이름으로 명칭된다. 즉,  속성들은 Predictors(예측자), Features, 독립변수, 입력변수(inputs)로 나타내고  라벨은 , 결과변수(output), targets, 종속변수, 반응변수로 나타낸다.  위 테이블의 데이터 타입은 수치변수(속성1, 속성3, 라벨)와 목록변수(factor, 속성2)로 구성되어있다. 그러나 대부분의 기계학습의 알고리즘에서는 목록변수를 처리할 수 없다. 그러므로 목록변수는 수치변수로 전환되되야 한다.  독립변수가 위 태이블과 같이 수치형인 경우 regression 분석 문제로 귀결되고 다음 테이블과 같이 반응변수를 True, False와 같이 목록변수로 변화시킨 경우 분류문제(classification problem)가 된다.  위 테이블은 pandas의 DataFrame 구조이다. 이 구조의 기본 통계량에 대한 정보는  pd.describe()에 의해 나타낼 수 있다. 이 함수는 수치변수인 변수만을 선별적으로 계산된다.  print(d.describe()) 사용자ID 속성1 속성3 라벨 count 4.000000 4.000000 4.000000 4.00000 mean 5.000000 5.550000 10.000000 266.2500...