데이터 라벨링(Data Labeling) 클래스 표시 행렬 다중 클래스 표시 행렬 클래스 표시 행렬 한 변수의 값들은 각 값에 적합된 그룹(클래스)에 1을, 나머지 그룹(클래스)에 0을 할당하는 방식으로 0과 1로 나타낼 수 있습니다. 표 1은 0, 1, 2, 3, 5의 값을 갖는 데이터를 5개의 클래스로 구분하여 각 값에 대응하는 클래스에만 1을 할당하는 과정을 나타낸 것입니다. 벡터 구조인 데이터의 각 값은 왼쪽을 시작으로 0 부터 부여되는 위치값을 가집니다. 이 위치값을 인덱스(index)라고 하며 클래스의 수와 인덱스의 갯수를 동일하게 하여 같은 위치에 1을 할당한 것입니다. 표 1 1차원 데이터의 클래스 표시행렬 data = [0, 1, 2, 3, 5] value index class 0 class1 class2 class 3 class 4 0 0 1 0 0 0 0 1 1 0 1 0 0 0 2 2 0 0 1 0 0 3 3 0 0 0 1 0 5 4 0 0 0 0 1 표 1의 결과는 식 1과 같이 벡터 형태인 데이터를 2차원 행렬 형태로 전환됩니다. 이 결과는 클래스표시행렬이라 합니다. $$\begin{bmatrix}1&2&3&4 \end{bmatrix}\Rightarrow \begin{bmatrix}1&0&0&0\\ 0&1&0&0 \\0&0&1&0\\0&0&0&1\end{bmatrix}$$ (식 1) 식 1의 데이터는 고유한 값들로 구성되어 있는 특수한 형태입니다. 다음 코드의 객체 x와 같이 중접된 값들을 가지는 경우 클래스를 생성하기 위해 고유한 값들만을 추출할 필요가 있습니다. 이러한 과정을 포함하여 클래스 표시행렬을 생성하기 위해 sklearn.preprocessing.LabelBinarizer() 클래스를 사용합니다. 고유...
python 언어를 적용하여 통계(statistics)와 미적분(Calculus), 선형대수학(Linear Algebra)을 소개합니다. 이 과정에서 빅데이터를 다루기 위해 pytorch를 적용합니다.