sons dataStory

글

라벨이 decribe()인 게시물 표시

[data analysis] 변수의 특성

변수의 특성 내용 변수의 종류 테이블 구조 기술통계량 찾기 목록변수의 인코딩(encoding) 비율 변수의 종류 측정, 설문, 연구 등에 의해 생성되는 모든 자료들이 변수가 될 수 있으며 기계학습에서는 특징(feature) 이라는 용어를 사용하기도 합니다. 데이터 셋에서 나타내는 모든 변수들을 포함하는 하나의 세트를 인스턴스 (instance) 또는 샘플(smaple) 이라고 합니다. 예를 들어 표 1은 는 이름, 나이, 성별, 키(height)라는 4개의 변수와 3개의 사건 즉, 인스턴스들을 포함하고 있습니다. 일반적으로 통계분석을 위한 자료는 표 1의 형식과 같이 각 변수는 열(column), 인스턴스는 행(row)으로 구성됩니다. 이러한 자료들의 모음을 데이터 셋(data set) 이라 합니다 표 1 데이터 셋의 일반적인 형태 이름 나이 성별 키 철수 10 남 153 영희 15 여 161 길동 21 남 181 표 2에서 나타낸 것과 같이 모든 변수들은 목록변수와 양적변수로 구분하며 또한 측정 수준에 따라 명목형, 순위형, 이산형, 연속형로 구분합니다. 표 2 변수의 종류 변수 내용 측정수준 목록변수(Categorical variables) 그룹/목록 표시 명목형(Nominal) 순위형(Ordinal) 양적변수(Quantitative variables) 수량/크기 표시 이산형(Discrete) 연속형(Continuous) 목록변수(Categorical variables) 중, 명목형(변수) 은 논리적 순서가 없는 질적 분류만이 가능한 변수입니다. 예로서 사과, 배, 수박의 과일을 분류하기 위해 각각 1,2,3의 숫자를 지정할 수 있습니다. 그러나 이 숫자들은 정성적 또는 정량적인 순위의 의미를 가질 수 없습니다. 순위형 변수 는 단지 순서를 부여하는 것만 가능합니다. 예로서 영화에 대...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

[data analysis] 변수의 특성