기본 콘텐츠로 건너뛰기

라벨이 level인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 신뢰구간(Confidence Interval)

신뢰구간(Confidence Interval) 표본평균($\bar{x}$)은 모평균(μ)을 위한 적합한 추정량이 될 수 있지만 불확실성이 존재합니다. 그 불확실성을 감소시키 위해 그 추정량을 기준으로 모평균의 존재 가능성이 높은 구간을 설정할 수 있습니다. 예를 들어 중심극한 정리에 의해 자료의 수가 크다면 정규분포를 가정할 수 있습니다. 즉, 표본수가 큰 표본분포의 경우 정규분포로 가정할 수 있으며 최대 확률을 보이는 평균을 중심으로 양쪽 또는 한쪽 방향으로 추정값이 존재할 수 있는 구간(신뢰구간)을 지정할 수 있습니다. 추정량이 모평균을 추정하는 신뢰구간 내에 존재한다면 모평균으로 사용할 수 있는 근거가 마련된 것입니다. 그러나 그 구간(interval) 외에 위치한다면 모평균으로 사용하는 것이 어렵다고 할 수 있습니다. 즉, 분포의 가정과 신뢰구간은 추정량의 채택 또는 기각에 대한 판정기준으로 사용됩니다. 신뢰구간은 발생할 수 있는 모든 값들 중에 추정치로 사용할 수 있는 값들이 포함되는 범위를 의미합니다. 이 범위는 분포상에서 점유하고 있는 누적확률로 나타낼 수 있습니다. 그림 1은 표준정규분포에서 평균을 중심으로 95%의 확률이 점유하는 면적으로 나타낸 것입니다. 이 경우 랜덤변수의 구간은 (-1.96, 1.96)이 됩니다. 즉, 이 구간내에 존재하는 값은 합리적인 추정치로 고려할 수 있음을 의미합니다. 물론 그 신뢰구간의 범위는 설정하는 누적확률에 따라 달라질 것입니다. 그림 1. N(0, 1)에서 확률 95%에 대응하는 신뢰구간. import numpy as np from scipy import stats import matplotlib.pyplot as plt x=np.linspace(-3, 3, 1000) plt.figure(figsize=(4,3)) plt.plot(x, stats.norm.pdf(x), color="g", label="N(0,1)") x1=np.linspace(-1.96,...

R 분산분석(ANOVA)의 개요

내용 용어 Fitting ANOVA aov() anova_test() 분산분석의 개요 요인(명목 또는 순서변수)이 설명 변수로 포함될 때 분석의 중심은 예측에서 각 그룹 차이에 대한 결정으로 이동하며 이 경우 사용하는 방법론을 분산 분석(ANOVA) 이라고 합니다. ANOVA 방법론은 다양한 실험 및 준실험 설계를 분석하는 데 사용됩니다. 용어 일반적으로 실험 설계, 특히 분산 분석에는 고유하게 사용되는 용어가 있습니다. 그룹화 변수는 요인(factor) 이라고도 합니다. 요인에 포함된 범주(그룹)를 수준(level) 또는 그룹 이라고 합니다. 수준 수는 요인에 따라 다를 수 있습니다. 요인의 수준 조합을 셀 이라고 합니다.다음 데이터로부터 용어들을 알아봅니다. 자료는 불안을 치료하기 위한 treatment내에 두 가지 수준(CBT, EMDR)이 있는 그룹 또는 레벨(level) 간 요인입니다. 환자가 하나의 그룹에만 할당되기 때문에 그룹 간 요인(between-groups)이라고 합니다. CBT와 EMDR을 모두 받은 환자는 없습니다. 다음 표의 s 문자는 주제(환자)를 나타내며 그 환자로 부터의 값이 반응변수이고 치료의 수준은 독립변수입니다. 각 처리 조건에 동일한 수의 관측치가 있으므로 균형 설계(balanced design) 가 있습니다. 표본 크기가 설계의 셀 전체에서 같지 않으면 불균형 설계(unbalanced design) 가 있는 것입니다. One-way between-groups ANOVA Treatment CBT EMDR s1 s6 s2 s7 s3 s8 s4 s9 s5 s10 위 표의 통계적 설계는 두개의 수준으로 구성된 요인 1개가 존재합니다. 즉, 분류 변수가 1개이므로 일원 분산 분석(one-way ANOVA) 이라고 합니다. 특히, 그룹 간 일원 분산 분석 입니다. ANOVA 설계의 효과는 주로 F 테스트 를 통해 평가됩니다. 치료...

R factor(요인)

Factor 변수는 명목형(nominal), 순서형(ordinal) 또는 연속형(continumous)으로 설명할 수 있습니다. 명목 변수는 암시적 순서 없이 범주형입니다. 당뇨병(Type1, Type2)은 명목 변수의 예입니다. 데이터에서 Type1이 1로 코딩되고 Type2가 2로 코딩되더라도 순서를 의미하지 않습니다. 순서 변수는 순서를 의미하지만 양은 의미하지 않습니다. 상태(나쁨, 개선됨, 우수함)는 각각의 순서를 지정할 수 있지만 그 순서간의 차이는 명확하지 않습니다. 연속 변수는 특정 범위 내에서 임의의 값을 취할 수 있으며 순서와 양이 모두 암시됩니다. 연령(년)은 연속 변수이며 14.5 또는 22.8 및 그 사이의 값들을 사용할 수 있습니다. 15세인 사람이 14세인 사람보다 한 살 많다는 것을 알고 있습니다. R의 범주형 및 순서형 변수를 요인(factor)이라고 합니다. 요인은 데이터를 시각적으로 분석하고 표시하는 방법을 결정하기 때문에 R에서 중요하며 R의 factor() 함수는 범주형(순서형을 포함) 값을 [1... k] 범위의 정수 벡터로 저장하고(여기서 k는 명목 변수의 고유값 수) 문자열의 내부 벡터(원래 값) 이 정수에 매핑됩니다. 다음 벡터 diabetes는 두 개의 범주로 목록화 할 수 있습니다. 이렇게 데이터의 고유값들을 수준(level)이라고 합니다. factor()함수는 벡터의 값들과 level을 함께 반환합니다. diabetes [1] type1 type2 type1 type1 Levels: type1 type2 순서형 변수의 경우 인자 ordered=TRUE 를 첨가하여 각 목록의 순서를 지정합니다. 이 경우 순서는 기본적으로 알파벳 순으로 지정됩니다. 예를 들어 다음의 경우 excellent=1, improved=2, poor=3으로 순서가 지정됩니다. status [1] poor improved excellent poor Levels: excellent 많은 경우 default인 알파벳 정...