nan 제거를 위한 방법(~ing)

1. pd.dropna(axis=0, how='any', thresh=None)

axis:0은 열, 1은 행을 기준으로 설정
주의) 0일경우 열을 기준으로 하는데 이는 1열의 3행의 값이 na라면 how='any' 일 경우 3행을 제거
즉, 기준이 되는 열 또는 행에서 na가 대응되는 행 또는 열이 제거된다.
how: 'any'는 na값이 하나라고 있으면 해당되는 열을 제거
'all' 은 그 열의 값이 모두 na일 경우에만 제거

In [1]: import numpy as np
In [2]: import pandas as pd

다음예는 엑셀파일로 부터 저장된 자료를 호출하였을 경우 Na의 처리예이다.
In [3]: itemCode=pd.read_excel("c:\\~~\\--.xlsx", sheet_name="googleCode")
In [4]: itemCode1=itemCode.ix[:,:3]
In [5]: itemCode1
Out[5]:

	code1	종목코드	종목명
0	KRX	KOSPI	종합(KOSPI)
1	KRX	122630	KODEX 레버리지
2	KRX	114800	KODEX 인버스
3	KRX	004020	현대제철
4	KRX	030610	교보증권
5	KRX	006800	미래에셋대우
6	KRX	130960	CJ E&M
7	KRX	047810	한국항공우주
8	KOSDAQ	KOSDAQ	종합(KOSDAQ)
9	KOSDAQ	214180	민앤지
10	NaN	NaN	NaN
11	NaN	NaN	NaN
12	NaN	NaN	NaN
13	NaN	NaN	NaN
14	NaN	NaN	NaN
15	NaN	NaN	NaN

위의 결과에서 Na를 제거하기 위해 위 함수를 사용하자.

In [6]: itemCode1=itemCode1.dropna(axis=0)
In [7]: itemCode1

	code1	종목코드	종목명
0	KRX	KOSPI	종합(KOSPI)
1	KRX	122630	KODEX 레버리지
2	KRX	114800	KODEX 인버스
3	KRX	004020	현대제철
4	KRX	030610	교보증권
5	KRX	006800	미래에셋대우
6	KRX	130960	CJ E&M
7	KRX	047810	한국항공우주
8	KOSDAQ	KOSDAQ	종합(KOSDAQ)
9	KOSDAQ	214180	민앤지

코드 [6]에서 dropna() 함수 적용시 열을 기준으로 한다. 이 경우 how='any'로 지정되었다.(이 값은 디폴트 값이다.)

1열에서 10행에서 Na가 발견되어 10행이 제거되었다.

2. np.delete(array객체, 제거 원소의 인덱스(열 또는 행), axis=None)
배열 객체 중에 제거할 원소의 인덱스를 지정하여 지정된 행(1), 또는 열(0)을 기준으로 원소들을 제거한다.
axis=None일 경우 객체를 1차원으로 간주한다.
axis를 행으로하면 인덱스는 열의 번호이고
axis를 열로 하면 인덱스는 행의 번호이다.
주의: 행을 기준으로 인덱스 3을 지정하였다. 이 경우 제거할 값을 선택하는 것은 행과 열이 만나야 하는 지점이다. 그러므로 행을 기준으로 하였기 때문에 인덱스 3은 열번호가 되어야 한다. 즉, 3열이 제거된다.

결과는 인덱스에 지정한 것에 따른다. 즉,
인덱스가 행 번호이면 행이 제거되고
인덱스가 열번호이면 열이 제거된다.

In [8]: x=np.random.randint(10, size=20).reshape((4, 5))

In [9]: x
Out[9]:
array([[4, 6, 7, 2, 9],
[8, 8, 0, 6, 5],
[1, 9, 0, 7, 3],
[3, 1, 2, 9, 8]])

In [10]: np.delete(x, [2, 3], 0)
Out[10]:
array([[4, 6, 7, 2, 9],
[8, 8, 0, 6, 5]])

In [11]: np.delete(x, [2, 3], 1)
Out[11]:
array([[4, 6, 9],
[8, 8, 5],
[1, 9, 3],
[3, 1, 8]])

코드[8]의
np.random.randint(시작수, 끝수, 갯수): 시작수와 끝수 사이의 정수들 중에 지정된 갯수의 임의수를 추출하는 함수
np.reshape((행, 열)): 객체를 지정된 행과 열의 수로 차원을 재 정의 한다.

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표

nan 제거를 위한 방법(~ing)

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

유리함수 그래프와 점근선 그리기

부분분수의 미분