기본 콘텐츠로 건너뛰기

라벨이 get_dummies인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 원-핫 인코딩을 위한 함수들

원-핫 인코딩을 위한 함수들 pandas.get_dummies pandas.get_dummies(x, prefix=None, dummy_na=False, dtype=None) 전달되는 데이터인 x는 1차원 Array, pandas Series, 그리고 DataFrame 모두 가능 데이터의 고유값(unique value)에 대응하는 클래스를 생성하여 값에 적합한 클래스에 True, 나머지 클래스에 False를 할당(one-hot encoding) True와 False로 표시가 기본값 인수 dtype = "int": True → 1, False → 0 dummy_na = True: 데이터의 포함된 Na를 포함 pd.get_dummies(['A', 'A', 'C', 'C', 'B']) A B C 0 True False False 1 True False False 2 False False True 3 False False True 4 False True False pd.get_dummies(['A', 'A', 'C', 'C', 'B'], dtype='int') A B C 0 1 0 0 ...

[data analysis]Time 변수 조정

Time 변수 조정 내용 date 인덱스의 분리 순환적 시간 특성 One-hot Encoding get_dummies()적용 sklearn.preprocessing.OneHotEncoder 클래스 사용 Time 변수 조정 date 인덱스의 분리 Pandas 객체에서의 시간 인덱스는 DateTime 객체인 Pandas의 DatetimeIndex 유형입니다. 물론 string의 시간(날짜)등 역시 이 자료형으로 전환할 수 있습니다. 그러므로 다음과 같이 인덱스 값에서 년, 월, 일과 같은 새로운 특징(feature, 설명변수)을 쉽게 생성할 수 있습니다. pd객체.index.year: 인덱스 중 년을 추출 pd객체.index.month: 인덱스 중 월 추출 pd객체.index.day: 인덱스 중 일을 추출 pd객체.index.weekday: 인덱스 중 일을 요일로 변경하여 반환 pd객체.index.date: 인덱스 중 년, 월, 일을 추출 다음은 일정기간 코스피 지수(^KS11)의 일일자료입니다. 이 자료는 yfinance 패키지의 download() 함수로 호출한 것으로 행 인덱스인 date의 경우 시간이후까지 표현됩니다. 이를 년, 월, 일로 조정하기 위해 .date 속성을 적용합니다. import numpy as np import pandas as pd from sklearn.preprocessing import StandardScaler import yfinance as yf st=pd.Timestamp(2024, 1, 1) et=pd.Timestamp(2024, 9, 27) data=yf.download("^KS11", st, et) data.index[:4] DatetimeIndex(['2024-01-02 00:00:00+00:00', '2024-01-03 00:00:00+00:00', ...