sons dataStory

글

라벨이 반응변수인 게시물 표시

[data analysis] 단순회귀분석(Simple regression)

단순회귀분석(Simple regression) 전형적인 회귀 모형은 y = ax + b와 같은 형태이며 변수 x를 y로 선형변환 하는 것으로 정의할 수 있습니다. 선형변환은 x의 변화 정도에 따라 y의 변화 정도가 같습니다. x를 설명변수 또는 독립변수 , y를 반응변수 또는 종속변수 라고 하며 x는 1개 이상일 수 있으며 단변수일 경우를 단순회귀 모형이라고 합니다. 위 식과 같이 x를 y로 이동시키는 과정에서 가장 적합한 a와 b를 결정하는 것이 회귀분석의 목적이 됩니다. 예 1) kospi 지수의 일일 주가 자료중 시가(Open)을 설명변수로 하여 종가(Close)를 추정하는 회귀모델을 작성합니다. Open Close 0 2874.50 2944.45 1 2943.67 2990.57 2 2993.34 2968.21 ⋮ ⋮ ⋮ 다음 코드는 분석을 위한 자료를 호출하기 위한 것입니다. st=pd.Timestamp(2021,1, 1) et=pd.Timestamp(2024, 5, 10) kos=fdr.DataReader('KS11',st, et)[["Open","Close"]] kos.index=range(len(kos)) kos.head(3).round(2) Open Close 0 2201.21 2175.17 1 2192.58 2176.46 2 2154.97 2155.07 통계분석을 위해 다음의 이유로 자료의 표준화(Standardization) 가 필요합니다. 데이터의 규모(scale) 축소 여러변수가 사용될 경우 변수간 발생되는 데이터의 규모를 일정하게 조정 반응변수의 표준화는 필수적이지...

[data analysis] 분산분석 (Analysis of variance)의 개요

분산분석 (Analysis of variance)의 개요 관련된 내용 분산분석의 개요 일원분산분석(one-way ANOVA) 사후분석(Post-hoc test) 이원분산분석(two-way ANOVA) 두 개이상 여러 집단의 비교는 각 그룹의 분포를 비교하는 것과 같습니다. 분포의 비교는 평균이나 분산 등을 기준으로 평가할 수 있습니다. z 검정 또는 t 검정이 평균을 비교 대상으로 한 것과 같이 그 대상을 각 분포의 분산으로 지정할 수 있습니다. 이 경우 사용하는 방법론을 분산 분석(ANOVA) 이라고 합니다. 예를 들어 두 개 이상의 집단에서 각 집단내의 변동과 집단간 변동을 비교하여 모든 집단의 평균이 동일하다는 귀무가설을 검정하는 통계방법입니다. 두 개 집단의 가설검정을 위해 정규분포 또는 t 분포를 적용하였지만 그 이상의 집단을 비교하기 위해서는 집단 간의 변동성의 정도를 비교하는 F분포 를 사용합니다. 분산분석을 위한 자료는 비교 대상이 되는 명목변수인 요인변수 (factor, 설명변수) 와 각 요인에 따른 값들 즉, 반응변수(respond variable, 종속변수) 로 구성됩니다. 각 요인은 몇 개의 소집단으로 분류될 수 있으며 이 소집단의 요인들을 처리 (treatment, 요인수준) 라고 합니다. 요인 수준에 대응하는 반응변수가 한 개인 경우의 분석을 일원분산분석 (one-way anova) 라고 하며 여러 개인 경우를 다변량분산분석 (manova) 라고 합니다. 표 1은 한개의 요인에 따른 분리된 실험군에 대한 두 개의 처리효과를 포함합니다. 이 경우 각 처리에 대한 관측치 수는 같으므로 균형 설계(balanced design) 라고 하며 표본 크기가 설계의 셀 전체에서 같지 않으면 불균형 설계(unbalanced design) 라고 합니다. 표 1 그룹 간 일원 분산 분석 treatment(factor) group1 group2 s1 s6 s2 s7 s3 s8 s4 s9 s5 s10 ...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

[data analysis] 단순회귀분석(Simple regression)

[data analysis] 분산분석 (Analysis of variance)의 개요