기본 콘텐츠로 건너뛰기

라벨이 anova_lm인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 다중회귀모델의 생성

회귀모델 생성 1개 이상의 설명변수들과 1개의 반응변수를 가진 선형모델 역시 statsmodels.api.OLS() 클래스와 sklearn.linear_model() 클래스를 적용하여 구축할 수 있습니다. 이 모델의 구축과정과 평가방법은 단순회귀분석(Simple regression) 과 같습니다. 예 1) 코스피지수(kos), 코스탁지수(kq), kodex 레버리지(kl), kodex 인버스(ki), 그리고 원달러환율(WonDol)의 일일 종가들을 설명변수로 사용하여 삼성전자(sam)의 일일 종가를 추정하는 회귀모델을 구축해 봅니다. (이 자료에서 설명변수는 반응변수보다 1일 앞선 데이터 입니다.) kos kq kl ki WonDol sam Date 2023-01-10 2351.0 696.0 14440.0 4885.0 1239.0 60400.0 2023-01-11 2360.0 710.0 14525.0 4875.0 1240.0 60500.0 2023-01-12 2365.0 711.0 14580.0 4860.0 1242.0 60500.0 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 다음은 위 자료들을 호출하고 분석에 적합하게 조절하기 위한 코드들입니다. import numpy as np import pandas as p...

[data analysis] 이원분산분석(two-way ANOVA)

이원분산분석(two-way ANOVA) 관련된 내용 분산분석 (Analysis of variance)의 개요 일원분산분석(One-way ANOVA) 사후분석(Post-hoc test) 이원분산분석(two-way ANOVA) 일원분산분석(one-way anova)의 경우 명목형인 설명변수(요인)의 각 효과와 연속형 반응변수의 관계를 추정하는 방법입니다. 요인이 2개 이상일 경우 고려해야 할 변동이 증가합니다. 이러한 다요인 분산분석에서 2개의 요인을 포함하는 자료의 분석을 이원분산분석(two-way anova) 라고 하며 데이터 구조는 표 1과 같습니다. 표 1 이원분산분석의 데이터 구조 요인1(α) 요인2(β) 합 평균 처리1 처리2 … 처리k 1 y 11 y 12 … y 1k T 1. y 1. 2 y 21 y 22 … y 2k T 2. y 2. ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ n y n1 y n2 … y nk T n. y n. 합 T .1 T .2 … T .k T 평균 y .1 y .2 … y .k y 표 1은 다음과 같이 구성되어있습니다. 요인(α, β, 설명변수): 2 반응변수(y) 수준(처리): 인자 1의 n(α), 인자 2의 k(β) 표 1의 각 값은 식 1과 같이 나타낼 수 있습니다. y ijl = μ + α i + β j + α i β j + e ijl (식 1) i: 요인 1의 인덱스, 1, 2, ..., n j: 요인 2의 인덱스, 1, 2, ..., k l: i, j에 대응하는 반응변수의 인덱스 위 모형은 n개 수준의 α와 k개 수준의 β에 의한 효과인 주효과(main effect) 와 두 요인에 의한 교호 효과(interaction effect) 는 αβ, 그리고 각 관찰치와의 오차항으로 구성됩니다. 식 1의 모형은 식 2와 같이...

[data analysis] 일원분산분석(One-way ANOVA)

일원분산분석(One-way ANOVA) 관련된 내용 분산분석 (Analysis of variance)의 개요 일원분산분석(one-way ANOVA) 사후분석(Post-hoc test) 이원분산분석(two-way ANOVA) 분산분석의 귀무가설은 다음과 같습니다. H0 : µ 1 = µ 2 = · · · = µ n 분산분석을 위해 다음을 가정합니다. 각 모집단은 정규분포를 따릅니다. 모든 모집단의 분산은 동일합니다. 관측치들은 독립적이어야 합니다. 위의 정규성 가정은 각 그룹에 대응하는 모집단을 검정하는 것은 어렵기 때문에 모델의 잔차에 대한 검정으로 대신합니다. 또한 독립성은 자료의 수집단계의 정보에 의해 판단되는 것으로 분석 중에 그 검정은 쉽지 않습니다. 표 1에서 나타낸 것과 같이 one-way ANOVA는 각 factor에 포함되는 수준 즉 처리(treatment, 요인수준)가 없습니다. 그러므로 일원분산분석에서는 요인과 treatment가 같으며 각 요인에 포함된 값들(반응변수)을 그룹화합니다. 이 구조에서 각 그룹내의 변동과 각 요인들 사이의 변동을 비교합니다. 표 1 일원분산분석을 위한 자료구조 요인(처리) 1 2 … t 반응(값) x 11 x 12 … x 1t x 21 x 22 … x 2t ⋮ ⋮ ⋮ ⋮ x n1 x n2 … x nt 평균 X 1 X 2 … X .t 총평균 X .. 표 1로부터 각 값들은 식 1과 같이 일반화한 모형으로 나타낼 수 있습니다. x ij  = μ j + e ij (식 1) x ij : 각 값 μ j : 그룹 j의 평균 e ij : x ij 에 대응하는 오차 i:1, 2,…, n(그룹내 값의 수) j:1, 2, …, t(그룹의 수) 이 모형에서 각 변수는 독립적이고 정규분포에 부합한다고 가정했으므로 오차항(e) 역시 평균이 0이고 일정한 분산을 가진 정규분...