R 그래프 내장함수

R그래프를 위한 내장함수

각각의 데이터는 어떤 의미를 갖지 못하는 경우가 많지만 여러개의 데이터 즉, 시간에 따른 데이터들의 집합은 그 집단의 형태대로 많은 의미를 내포하고 있다. 이러한 의미를 합리적 근거에 따라 설명하려는 노력이 확률과 통계이다. 요즈음은 데이터 과학이라는 용어로 이러한 작업들을 대표하고 있다. 이러한 작업들에 들어가지 전에 반드시 해야 되는 전처리 작업이 있다. 그것은 그 데이터가 가지고 있는 전체적 인 윤곽을 파악하는 일이다. 이러한 일 중에 빈번히 사용하는 것이 시각적으로 그 일단의 의미를 나타내는 것이 다. 이러한 수단으로 R의 그래픽 기능은 매우 유용하며 분석자 자신이 나타내려고 하는 여러 정보를 도표로 유연하 게 나타낼 수 있다. 이 그래픽 수단은 위에서 언급한 데이터의 본격적인 분석 전에 이루어지기 전에 도입과 같은 기능을 위해서도 유용하지만 어떤 분석의 결과를 시각적으로 나타낼 때 역시 매우 유용한 수단이며 그 자체가 데이터 분석의 큰 부분이라 할 수 있겠다. R에서는 기본적으로 많은 plotting 함수를 내장하고 있다. 그 보다 후에 개발되어 나온 ggplot 라이브러리는 R내장 함수들 보다는 직관적으로 이용할 수 있다는 점에서 보다 편리하다. R의 그래프 관련 기능은 그래프 작도에 사용하는 함수들과 그래프를 출력하는 장치로 구분할 수 있다 그래프 작도 함수는 하나의 완성된 그래프를 그리는 고준위 함수와 완성된 그래프에 다른 그래프를 추가하거나 문자등을 삽입하기 위한 저준위 함수로 구분할 수 있다. 작도디바이스의 컴퓨터 화면에 바로 출력하거나 bmp, jepg, pdf, pictex, png, postscript(), win(), metafile() 등의 형식으로 이미지를 저장 할 수 있다.

바로 컴퓨터 화면에 출력하는 디바이스는 윈도우에서 Windows, 맥에서는 quartz()이다. 또한 저장을 위해서는 저장하려는 형식의 함수를 사용한다. 예를들어 png(“저장 파일의 경로”)를 지정한 후 그래프를 그리면 화면에 나타나지 않고 지정된 파일에 저장된다. 그래프를 그린후 그 디바이스를 닫아야 한다. 즉, dev.off()를 첨가한다. 즉, 다음과 같은 절차로 저장된다. 다음 코드는 옵션 eval=F로 지정했으므로 정크 코드가 실행되지 않는다.

png(file="example.png")#R이 작업하는 워킹디렉토리로 저장 디렉토리가 지정된다.
plot(x, y)
dev.off()

위와 같이 사용할 수 있는 디바이스의 종류는 다음과 같이 알아볼 수 있다.

help('device')

그래프를 그리는 단계는 다음과 같다.

1) 플롯을 위한 데이터나 수식을 준비

2) 고준위함수로 기준이 되는 그래프를 작성

3) 저준위 함수로 그래프나 텍스트를 추가

4) 저장

다음은 고준위 함수의 종류이다.

그래프	함수
산포도	plot(벡터)
히스토그램	hist(벡터)
상수염그림	boxplot(벡터)
막대그래프	barplot(각 목록의 빈도가 들어간 벡터)
원그래프	pie(각 목록의 빈도가 들어간 벡터)
분할표그림	mosaicplot(행렬)
스타차트	stars(행렬)
산포도행렬	pairs(행렬)
1차원 함수	그래프 curve(함수, 하한, 상한)
2차원 함수	그래프 persp(x, y, z)

위와 같은 그래프는 par(), layout() 함수로 출력 조건을 조정할 수 있다. 예를들어 한면에 6개의 그래프를 출력할 경우 다음과 같이 코드를 작성한다.

par(mfrow=c(2,3))#2행 3열로 각 그래프를 행 위주로 위치시킨다.
par(mfcol=c(2,3))#2행 3열로 각 그래프를 열 위주로 위치시킨다.
layout(matrix(2:3))

이 문서의 정크 코드의 형식과 출력 형식, 모든 그래프의 크기를 일정하게 하기 위해 다음과 같이 설정한다.

library(knitr)
opts_chunk$set(prompt=T, comment=NA)
opts_template$set(myFig=list(fig.mar=c(4,3,1,1),fig.height=3, fig.width=4))

위에서 나타낸 layout() 함수를 사용하여 각 그래프의 위치를 지정할 수 있다.

다음을 보자.

> x<-rnorm(100)
> matrix(c(2, 3, 0, 1), ncol=2)

   [,1] [,2]
[1,]    2    0
[2,]    3    1

> layout(matrix(c(2, 3, 0, 1), ncol=2))
> plot(x)
> hist(x)
> plot(x, type='l')

layout() 함수의 인수중에 respect를 사용하여 그래프 하단의 길이를 기준으로 높이를 자동으로 정할 수 있다. 위의 코드에서 layout의 변수에 변화를 주어 결과를 비교해보자.

> x<-rnorm(100)
> matrix(c(2, 3, 2, 1), ncol=2)

   [,1] [,2]
[1,]    2    2
[2,]    3    1

> layout(matrix(c(2, 3, 0, 1), ncol=2),heights=c(1.5, 1), respect=T)
> plot(x)
> hist(x)
> plot(x, type='l')

그래프 작성

그래프를 그리기 위한 데이터를 호출하자. 다음은 기록되어 csv 파일로 저장된 파일로 kospi 일일주가 자료로 2016, 1, 1일 이후의 값들을 사용한다. 또한 호출한 자료의 cp를 기반으로 cut() 함수를 적용하여 factor 인자를 산출하였다.

> k<-read.csv("c:/workspace/stockData/target/kospi.csv", header=T, stringsAsFactors=F)
> k1<-k[k[,1]>="2017-01-01",]
> k1$idx<-cut(k1[,"cp"], breaks=10, label=1:10)
> head(k1)

         date      op      hp      lp      cp    vol idx
1722 2017-01-03 2034.31 2044.07 2028.47 2043.97 268100   1
1723 2017-01-04 2046.29 2046.29 2040.61 2045.64 371500   1
1724 2017-01-05 2045.52 2046.50 2039.49 2041.95 541300   1
1725 2017-01-06 2048.11 2051.84 2045.66 2049.12 455400   1
1726 2017-01-09 2053.18 2053.18 2046.47 2048.78 398300   1
1727 2017-01-10 2043.30 2046.78 2039.50 2045.12 512700   1

plot() : x, y 축을 인자로 지정해야 하는데, y축만 지정할 경우 x축의 범위는 자동으로 지정된다 .

> plot(k1$cp)

다음은 수학함수를 지정하여 그래프를 그린다.

> layout(2:1)
> curve(sin, -pi, 2*pi)
> Gauss.density<-function(x){1/sqrt(2*pi)*exp(-x^2/2)}
> curve(Gauss.density, -3, 3)
> abline(h=0, col='red')
> abline(v=0, col='red')

plot()함수등으로 조절할 많은 매개변수들을 가진다. 각 변수의 인자들을 사용하여 제목(라벨), 축의 종류, 도식에 나타낼 점의 형식, 선의 형식, 색이나 기호 등 각각의 종류등이 있다. 다음은 그들을 표로 나타낸 것이다.

라벨	내용
main	제목 문자
sub	부제목 문자
xlab, ylab	각각 x,y의 좌표명
ann	논리형으로 축의 라벨 표시여부(T/F)
tmag	문자의 확대율

축	내용
축	log =‘x’, =‘y’,=‘’ 각각 x축, y축 양축 모두 로그축
xlim, ylim	각 축의 범위를 나타냄 c(하한, 상한)
axes	논리형으로 축생성을 억제 xaes=F, yaes=F

점	내용
p	점(기본)
l	선
b	점과 선
c	’b’에서 점을 그리지 않는 플롯
o	점 과 선 플롯을 중첩
h	수평선
v	수직선
s	왼쪽값을 기준으로 계단모양으로 연결
S	오른쪽값을 기준으로 계단모양으로 연결
n	축만 그리고 플롯하지 않음

lty	내용
0, blank	투명선
1, solid	실선
2, dashed	대시선
3, dotted	도트선
4, dotdash	도트와 대시선
5, longdash	긴 대시선
6, twodash	2개의 대시선

라벨	내용
col	번호 또는 이름으로 색 지정, 1부터, 검정, 빨강, 초록, 파랑, 연파랑, 보라, 노랑, 회색
pch	플롯의 점 모양을 지정(R help참조)
cex	문자의 확대율 지정
lwd	선의 폭, 1부터 증가 할수록 폭증가
bg	배경색
ann	F 지정으로 축과 전체 제목을 붙이지 않음
las	0,1,2,3의 값으로 축의 라벨의 위치 조정

아래 코드 중 “pch=ifelse(d1[,2]>mean(d1[,2]), 10, 1”는 평균보다 큰 값, 그렇지 못한 값을 구분하여 표시되는 점의 모양을 달리 하기 위한 것이다.

> cp.m<-lm(cp~op, data=k1)
> d1<-data.frame("op"=k1[,"op"], "cp"=k1[,"cp"], "fitted"=fitted(cp.m))
> plot(d1[,1], d1[,2], ylim=range(d1), pch=ifelse(d1[,2]>mean(d1[,2]), 10, 1), main="op & cp", xlab="op", ylab="cp")
> abline(cp.m, col=2, lwd=2)

위에서는 고수준 함수의 인자들에 대해 살펴보았다면 다음은 원래 그래프에 추가하기 위한 그래프 또는 legend등 에 사용되는 인자를 알아본다. 즉, 저수준함수에 사용하는 인자를 알아본다.

추가할	대상 함수
점	points()
직선	lines(), segments(), abline()
격자	grid()
화살표	arrows()
직사각형	rect()
문자	text(), mtext(), title()
테두리와 축	box(), axis()
범례	legend()
다각형	polygon()

위에서 작성한 종가에 대한 그래프에 저가에 대한 그래프를 저수준 함수를 사용하여 첨가하여 보자.

> plot(1:nrow(k1), k1[,'cp'], ylab='price', ylim=c(min(k1[,'op']), max(k1[,'cp'])))
> lines(1:nrow(k1),k1[,'op'], col=2)
> legend("topleft", lty=1:2, c("cp","op"), ncol=2)

위의 경우 축, 축이름, 스케일은 plot()에 의해 정해진 그래프에 새로운 그래프가 첨가되는 방식이다. 그러므로 두 그래프간의 스케일이 다르다면 결과에 나타나지 않을 수 있다. 이에반해 존재하는 그래프에 새로운 그래프를 첨가할 수 있는 par(new=T)를 사용하는 경우 각각 작성된 그래프가 겹쳐지는 것이므로 추가할 그래프의 축이름, 스케일을 공백으로 하여야 한다. 다음을 보자.

> par(mfrow=c(1,2))
> curve(sin, -2*pi, +2*pi, sub="검정:sin, 빨강:cos")
> par(new=T)
> curve(cos, -2*pi, +2*pi, lty=2)
> #위 결과는 두 그래프의 다른 y축 이름 겹쳐지므로 알아볼 수 없다. 이 경우 다음과 같이 y축이름을 설정한다.
>
> curve(sin, -2*pi, +2*pi, ylab='y', sub="검정:sin, 빨강:cos")
> par(new=T)
> curve(cos, -2*pi, +2*pi, lty=2, ylab=" ")

작성한 그래프를 제거하기 위해서는 frame() 또는 plot.new()를 사용한다.

그래프의 특정부분에 색을 첨가하고자 할 경우 polygon()를 사용한다. dnorm()는정규분포의 확률밀도 함수이다. 이 함수의 그래프에서 일정부분에 음영을 넣고자 한다.

> par(mfrow=c(1,1))
> curve(dnorm, -5, 5, type="l")
> x.spec<-seq(-1, 1, length=10)
> y.spec<-dnorm(x.spec)
> polygon(c(x.spec, rev(x.spec)), c(rep(0, 10), rev(y.spec)), col="gray")

3차원 그래프

persp(x축 데이터, y축 데이터, z축 데이터, col=색, theta=가로회전각도, phi=세로회전각도, expand=확대율)

> x<-seq(-3, 3, length=61)
> y<-x
> f<-function(x, y){
+ return(1/(2*pi)*exp(-(x^2+y^2)/2))
+ }
> z<-outer(x, y, f)
> persp(x, y, z, theta=30, phi=30, expand=0.5, col="lightblue")

유리함수 그래프와 점근선 그리기

내용 유리함수(Rational Function) 점근선(asymptote) 유리함수 그래프와 점근선 그리기 유리함수(Rational Function) 유리함수는 분수형태의 함수를 의미합니다. 예를들어 다음 함수는 분수형태의 유리함수입니다. $$f(x)=\frac{x^{2} - 1}{x^{2} + x - 6}$$ 분수의 경우 분모가 0인 경우 정의할 수 없습니다. 이와 마찬가지로 유리함수 f(x)의 정의역은 분모가 0이 아닌 부분이어야 합니다. 그러므로 위함수의 정의역은 분모가 0인 부분을 제외한 부분들로 구성됩니다. sympt=solve(denom(f), a); asympt [-3, 2] $$-\infty \lt x \lt -3, \quad -3 \lt x \lt 2, \quad 2 \lt x \lt \infty$$ 이 정의역을 고려해 그래프를 작성을 위한 사용자 정의함수는 다음과 같습니다. def validX(x, f, symbol): ① a=[] b=[] for i in x: try: b.append(float(f.subs(symbol, i))) a.append(i) except: pass return(a, b) #x는 임의로 지정한 정의역으로 불연속선점을 기준으로 구분된 몇개의 구간으로 전달할 수 있습니다. #그러므로 인수 x는 2차원이어야 합니다. def RationalPlot(x, f, sym, dp=100): fig, ax=plt.subplots(dpi=dp) # ② for k in x: #③ x4, y4=validX(k, f, sym) ax.plot(x4, y4) ax.spines['left'].set_position(('data', 0)) ax.spines['right...

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표

R 그래프 내장함수

R그래프를 위한 내장함수

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

[sympy] Sympy객체의 표현을 위한 함수들

유리함수 그래프와 점근선 그리기