기본 콘텐츠로 건너뛰기

라벨이 estimator인 게시물 표시

[matplotlib]quiver()함수

[seaborn] 변수들의 관계 시각화(산점도와 선그래프)

변수들의 관계 시각화(산점도와 선그래프) 산점도 선그래프 seaborn의 함수중 그림 수준(figure-level) 함수인 relplot()은 지정한 데이터들의 관계성을 나타냅니다. 이러한 특성은 데이터들 사이에 관계를 나타내는 과정인 통계를 시각적으로 나타내는데 적절합니다. 이 그림수준 함수인 replot() 함수는 축수준(axes-level) 함수인 scatterplot() 또는 lineplot()의 모두 작성할 수 있습니다. relplot(kind="scatter") = scatterplot() relplot(kind="line") = lineplot() 산점도(scatter) 데이터 tips는 연속변수와 목록변수가 모두 포함된 데이터셋입니다. 연속변수들 사이의 산점도 작성은 인수인 x, y에 각 변수를 지정하는 것으로 생성됩니다. import numpy as np import pandas as pd import yfinance as yf import matplotlib.pyplot as plt import seaborn as sns tips=sns.load_dataset('tips') tips.head(3) total_bill tip sex smoker day time size 0 16.99 1.01 Female No Sun Dinner 2 1 10.34 1.66 Male No Sun Dinner 3 2 21.01 3.50 Male ...

[data analysis] 추정(Estimation)

추정(Estimation) 추정에서는 모수의 특정값을 추정하는 점추정(point estimation) 과 모수가 포함될 일정한 구간을 추정하는 구간추정(interval estimation) 으로 구분됩니다. 표본으로부터 모집단의 모수들을 추정하기 위해 사용하는 통계량을 추정량(estimator) 라고하며 가정에 부합하며 어떠한 편의(bias)를 가지지 않는 추정치를 불편추정치(unbiased estimator) 로 사용합니다. 예를 들어 모평균을 추정하기 위해 표본평균을 불편추정치로 사용합니다. 각 표본의 평균들로부터 산출된 평균(표본평균)은 식 1과 같이 계산되며 모평균의 추정량이됩니다. \begin{align}\tag{1} \hat{\mu}&=\bar{x}\\ &=\frac{1}{n}(\bar{x_1}+\bar{x_2}+\cdots+\bar{x_n})\\ &=\frac{1}{n}\sum^n_{i=1}\bar{x_i } \end{align} (식 1) 또한 일반적으로 모표준편차 σ는 미지의 값이므로 표본분포의 표준편차 s를 불편추정량으로 사용하여 식 2와 같이 계산됩니다. \begin{align}\tag{2}&\begin{aligned}\hat{\sigma}&=s\\ &=\sqrt{\frac{1}{n-1}\sum^n_{i=1}(\bar{x_i}-\bar{x})} \end{aligned}\\ & n :\text{샘플 수} \end{align} (식 2) 표본의 통계량에 의해 추정된 모수는 모집단으로부터 표집되는 표본에 의존합니다. 기본적으로 모집단과 표본에는 차이가 존재하므로 추정된 모수는 불확실성을 내재합니다. 그러므로 점 추정치와 같이 하나의 값으로 모수를 나타내는 것보다 확률적으로 신뢰할 수 있는 수준에서 모수가 포함되는 구간을 설정하여 나타내는 것이 보다 합리적일 것입니다. 이러한 구간을 신뢰구간(confidence Interval) 이라 하며 그 구간에 대한 추정을...