다음 테이블에서 속성(attribute)는 설명변수(독립변수), 라벨(labels)은 반응변수(종속변수)를 나타낸다. 사용자ID 속성1 속성2 속성3 라벨 0 1 6.5 Male 12 120 1 4 4.2 Female 17 270 2 7 5.7 Male 3 75 3 8 5.8 Female 8 60 위의 데이터는 행과 열로 구성되어 있다. 각 행은 각 사용자에 속한 속성들을 나타내고 이는 instance, example, observation으로 명명된다. 열은 다양한 이름으로 명칭된다. 즉, 속성들은 Predictors(예측자), Features, 독립변수, 입력변수(inputs)로 나타내고 라벨은 , 결과변수(output), targets, 종속변수, 반응변수로 나타낸다. 위 테이블의 데이터 타입은 수치변수(속성1, 속성3, 라벨)와 목록변수(factor, 속성2)로 구성되어있다. 그러나 대부분의 기계학습의 알고리즘에서는 목록변수를 처리할 수 없다. 그러므로 목록변수는 수치변수로 전환되되야 한다. 독립변수가 위 태이블과 같이 수치형인 경우 regression 분석 문제로 귀결되고 다음 테이블과 같이 반응변수를 True, False와 같이 목록변수로 변화시킨 경우 분류문제(classification problem)가 된다. 위 테이블은 pandas의 DataFrame 구조이다. 이 구조의 기본 통계량에 대한 정보는 pd.describe()에 의해 나타낼 수 있다. 이 함수는 수치변수인 변수만을 선별적으로 계산된다. print(d.describe()) 사용자ID 속성1 속성3 라벨 count 4.000000 4.000000 4.000000 4.00000 mean 5.000000 5.550000 10.000000 266.2500...
python 언어를 적용하여 통계(statistics)와 미적분(Calculus), 선형대수학(Linear Algebra)을 소개합니다. 이 과정에서 빅데이터를 다루기 위해 pytorch를 적용합니다.