Python 데이터 시각화
pyhton에 의한 데이터 시각화에 사용되는 기본 툴은 matplotlib 패키지이다.
이 패키지의 pyplot 함수는 그래프를 생성하고 그래프내의 특정한 부분을 만들며 장식하는 등의 그래프에 어떠한 변화를 만들수 있다. 다음을 보자.
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
plt.plot(range(1, 5))
plt.ylabel("some numbers")
plt.show()
plot()함수의 인수로 x, y의 데이터들이 각각 리스트 형태로 전달된다. 둘 중 하나 만이 전달된다면 전달된 인수는 Y 리스트로 인식되어 그에 대응되는 x 값들은 자동적으로 매칭된다. 즉, 위 그래프의 경우 y는 1, 2, 3, 4로 그에 대응되는 x 값들은 0, 1, 2, 3-python에서 수는 0부터 시작된다.-이 된다. 다음과 같이 두 개의 리스트를 인수를 전달하면 첫번째를 x, 두 번째를 y로 인식한다.
plt.plot([3,4,5,6], [1,2,3,4])
plt.show()
단일한 그래프 생성
import matplotlib.pyplot as plt
위의 코드로 적용할 라이브러리를 인스톨한다. 이 코드로 이름 plt가 mataplotlib.pyplot와 동일하도록 만든다.아래 코드는 0~99까지의 x변수를 지정하고 이에 대응하는 y변수를 설정하기 위해 list comprehension 방법을 적용. 즉, 아래의 코드를 식으로 나타내면 다음과 같다.
y=x**2 [0, 99]
x=range(100)
y=[value**2 for value in x ]
plt.plot(x, y)
plt.show()
지정된 구간에서의 sin plot은 다음과 같이 나타낼 수 있다.
데이터를 만들기 위해 numpy 패키지를 인스톨한다.
import numpy as np
import pandas as pd
np.linspce()는 일정한 구간에 생성하고자 하는 데이터 수를 지정하여 사용한다.
x=np.linspace(0, 2*np.pi, 100)
y=np.sin(x)
plt.plot(x, y)
plt.show()
2. 다중 그래프 생성
x=np.linspace(0, 2*np.pi, 100)
ya=np.sin(x)
yb=np.cos(x)
plt.plot(x, ya)
plt.plot(x, yb)
plt.show()
다음은 x, y의 기본 플롯에 각 점과 다음점사이의 기울기를 결합하여 그린 플롯이다.
예로서 다음 plot_slope() 함수에서 x[1:]은 첫번째 원소만을 제외한 데이터, x[:-1]은 마지막 원소를 제외한 데이터로서 x[1:]-x[:-1]은 두번째-첫번째 원소와 같이 진행된다.
x
[-2. -1.55555556 -1.11111111 -0.66666667 -0.22222222 0.22222222 0.66666667 1.11111111 1.55555556 2. ] x[1:] [-1.55555556 -1.11111111 -0.66666667 -0.22222222 0.22222222 0.66666667 1.11111111 1.55555556 2. ]
x[:-1] [-2. -1.55555556 -1.11111111 -0.66666667 -0.22222222 0.22222222 0.66666667 1.11111111 1.55555556]
[-2. -1.55555556 -1.11111111 -0.66666667 -0.22222222 0.22222222 0.66666667 1.11111111 1.55555556 2. ] x[1:] [-1.55555556 -1.11111111 -0.66666667 -0.22222222 0.22222222 0.66666667 1.11111111 1.55555556 2. ]
x[:-1] [-2. -1.55555556 -1.11111111 -0.66666667 -0.22222222 0.22222222 0.66666667 1.11111111 1.55555556]
def plot_slope(x, y):
x1=x[1:]-x[:-1]
y1=y[1:]-y[:-1]
plt.plot(x[1:], y1/x1)
x=np.linspace(-2, 2, 10)
y=np.exp(-x**2)
plt.plot(x,y)
plot_slope(x, y)
plt.show()
from datetime import datetime
from pandas_datareader import data, wb
import pandas_datareader.data as web
startD=datetime(2010, 1, 1)
endD=datetime(2017, 3, 31)
k=web.DataReader("KRX:kospi", "google", startD, endD)
kl=web.DataReader("KRX:122630", "google", startD, endD)
ki=web.DataReader("KRX:114800", "google", startD, endD)
for i in [k, kl, ki]:
plt.plot(i.ix[:,"Close"])
plt.show()
댓글
댓글 쓰기