데이터 처리 과정에서 누락된 값이나 계산과정에서 무한값을 얻게되는 경우가 있는데 이러한 값들은 이어진 계산과정에서 에러를 발생하는 경우가 많다.
그러므로 분석전 또는 분석 동안 이들의 처리 과정이 중요하며 그 일환으로 먼저 그들의 인식과정을 먼저 살펴본다.
nan(Not a Number)는 np.nan으로 생성할 수 있으며
무한값(infinity)은 float() 함수를 사용하여 생성한다.
기본 자료는 numpy 패키지의 linspace(start, end, size)로 생성한다. 이 함수는 시작과 끝을 지정하여 그 범위에 지정한 갯수 만큼 수를 생성한다.
In [1]: import math
...: import numpy as np
...: import pandas as pd
...:
In [2]: x=np.linspace(0, 10, 20)
In [3]: x
Out[3]:
array([ 0. , 0.52631579, 1.05263158, 1.57894737,
2.10526316, 2.63157895, 3.15789474, 3.68421053,
4.21052632, 4.73684211, 5.26315789, 5.78947368,
6.31578947, 6.84210526, 7.36842105, 7.89473684,
8.42105263, 8.94736842, 9.47368421, 10. ])
In [4]: x[3]=np.nan #위 생성된 자료의 일정위치 값을 nan으로 대치한다.
In [5]: x[9]=np.nan
In [6]: x[7]=float('inf')
In [7]: x[16]=float('-inf')
In [8]: x
Out[8]:
array([ 0. , 0.52631579, 1.05263158, nan,
2.10526316, 2.63157895, 3.15789474, inf,
4.21052632, nan, 5.26315789, 5.78947368,
6.31578947, 6.84210526, 7.36842105, 7.89473684,
-inf, 8.94736842, 9.47368421, 10. ])
위의 자료에서 nan과 inf, -inf를 감지해 보자.
math.isfinite(값): 객체의 각 원소 단위로 NaN 또는 Infinity가 아닐 경우 True를 반환한다.
np.isfinite(array객체): 객체 또는 원소에 위의 math.isfinite와 같은 결과를 반환
In [9]: np.isfinite(x[1])
Out[9]: True
In [10]: try:
...: math.isfinite(x)
...: except:
...: print("원소단위로 실행됩니다.")
...:
원소단위로 실행됩니다.
In [11]: np.isfinite(x[3])
Out[11]: False
In [12]: x1=np.isfinite(x)
Out[11]: False
In [12]: x1=np.isfinite(x)
In [13]: x1
Out[13]:
array([ True, True, True, False, True, True, True, False, True,
False, True, True, True, True, True, True, False, True,
True, True], dtype=bool)
위의 객체에서 False 부분이 nan과 infinity이므로 이들의 인덱스를 알아보기 위해
np.where(condition)
조건에 맞는 부분의 인덱스를 반환한다. (np.array 또는 pd DataFrame 에서 작동된다.)
In [14]: np.where(x1==False)
Out[14]: (array([ 3, 7, 9, 16], dtype=int64),)
math.isinf(x): 원소단위 infinity일 경우 True
np.isinf(array 객체): 객체의 각 원소를 판단하여 infinity일 경우 True
In [15]: math.isinf(x[3])
Out[15]: False
In [16]: x1=[math.isinf(i) for i in x]
In [17]: x1
Out[17]:
[False,
False,
...,
True,
False,
False,
False]
위의 객체 x1은 리스트 형이다. 그러므로 list.index()로 대상의 인덱스를 찾을 수 있다. 그러나 이 함수는 객체 중 대상과 일치하는 첫부분만을 반환한다.
In [18]: x1.index(True)
Out[18]: 7
위 리스트 객체를 np array 형으로 전환후 np.where 적용할 수 있다.
In [19]: np.where(np.array(x1)==True)
Out[19]: (array([ 7, 16], dtype=int64),)
In [20]: x1=np.isinf(x)
In [21]: np.where(x1==True)
Out[21]: (array([ 7, 16], dtype=int64),)
numpy 모듈은 양의 무한값(positive infinity)와 음의 무한값(negative infinity)를 구별한다.
np.isposinf(array객체 또는 원소): 양의 무한값이면 True
np.isneginf(array객체 또는 원소): 음의 무한값이면 True
In [22]: np.where(np.isposinf(x)==True)
Out[22]: (array([7], dtype=int64),)
In [23]: np.where(np.isneginf(x)==True)
Out[23]: (array([16], dtype=int64),)
Out[17]:
[False,
False,
...,
True,
False,
False,
False]
위의 객체 x1은 리스트 형이다. 그러므로 list.index()로 대상의 인덱스를 찾을 수 있다. 그러나 이 함수는 객체 중 대상과 일치하는 첫부분만을 반환한다.
In [18]: x1.index(True)
Out[18]: 7
위 리스트 객체를 np array 형으로 전환후 np.where 적용할 수 있다.
In [19]: np.where(np.array(x1)==True)
Out[19]: (array([ 7, 16], dtype=int64),)
In [20]: x1=np.isinf(x)
In [21]: np.where(x1==True)
Out[21]: (array([ 7, 16], dtype=int64),)
numpy 모듈은 양의 무한값(positive infinity)와 음의 무한값(negative infinity)를 구별한다.
np.isposinf(array객체 또는 원소): 양의 무한값이면 True
np.isneginf(array객체 또는 원소): 음의 무한값이면 True
In [22]: np.where(np.isposinf(x)==True)
Out[22]: (array([7], dtype=int64),)
In [23]: np.where(np.isneginf(x)==True)
Out[23]: (array([16], dtype=int64),)
댓글
댓글 쓰기