교육통계/STATA

분산분석 3. 일원분산분석

개노답이글스 2023. 9. 4. 18:47

 

뭔가 엄청 나간것 갔지만

 

사실 아직 출발하지도 않았다

 

연구가설만 세우고 아무것도 안했으니ㅋㅋㅋ

 

연구가설이 뭐였지..

 

Q. 지역규모에 따라 청소년의 우울에 차이가 있는가?

 

이 때 연구자가 관심있어 하는 '지역규모'를 요인으로 부른다

 

이 요인의 수준이 미리 정해져(알고 있으면)

 

고정효과 모형

 

모르겠는데, 뭔가 뭔가 있지 않을까? 싶으면

 

무선효과 모형으로 놓고 돌린다

 

1.고정효과 모형

 

지역규모의 수준을 연구자가 이미 너무 잘 알고 있다

 

읍면지역, 중소도시, 대도시, 특별시

 

총 4개의 수준으로 나누어보겠다는 거지~

 

이제 분산분석, F검정을 실시한다

 

R로 그냥 해보면, aov 함수 사용해서~

 

앞 장을 열심히 보았다면.. 이제 이 표 보는 것 쯤이야 일도 아니다

 

F검정 결과 통계적으로 유의하였고,

 

즉, 집단 간 분산 값이 집단 내 분산 보다 더 크게 나와 F검정 통과~

 

그 다음 이제

 

사후검정을 실시한다

 

무섭게 왜 사후검정이냐 국과수냐..

 

집단 간 분산이 유의미한 값이니까

 

그러면 집단 별로 어떻게 차이가 있는지 살펴보는게 의미가 있다

 

영가설이 버려지고, 대립가설이 채택이 되었는데

 

문제는 대립가설도 지나치게 많다는 것..

 

 

 

이제서야 t-test를 시행한다

 

근데 문제는 마찬가지로 '다중검정'이라는 것인데

 

다중검정의 문제는 유의수준이 지나치게 커진다는 것이다

 

그래서 통계학 슨상님들이

 

이 유의수준을 보정하여 사후검정이 가능하도록

 

개발하셨다..

 

이것까지 수식을 알아보긴 너무 힘드니..

 

그냥 믿고 넘어가자고..

 

https://blog.naver.com/tmalqr/222482124412

 

 

자세한 R코드는 여기서..

 

2. 무선효과

 

연구자가 수준별로 보고자 했던 지역규모를

 

정하고 분석하는 것이 아니라

 

'어떤 수준인지 알 수 없음'

 

상태로 분석한다.

 

이 모형을 가정한 연구자는

 

지역규모가 알 수 없는 상태의 수준으로 되어 있고

 

랜덤, 무작위로 지정될 것이라 생각하고 분석을 시작한다

 

그래서 주된 관심은

 

수준별로 특정 평균값이 얼마고, 어느정도 차이냐에 있지 않고

 

'분산'이 통계적으로 유의한가,

 

집단 별로 분석할 때 분산이 유의미한 가에 집중한다

 

이 때 총 분산은 두 가지로 나누어서 생각한다

 

전체 분산 = 집단 간 분산 + 집단 내 분산

 

이 구조가 될 경우 생각해 볼 수 있는 것이

 

ICC : intraclass correlation coefficient

 

같은 그룹 안에서의 상관을 구해보면

 

다음과 같이 전개된다

 

 

 

j번째 그룹의 i 번째 학생

 

j번째 그룹의 i'번째 학생

 

한 번 더 풀어쓰면

 

 

어떻게 구성되어 있는지는 모르겠지만,

 

어떤 수준이 존재하고, 그 수준에 의해 분산이 발생한다면

 

 

 

이 될 것 이고,

 

만약 분산이 0이라면

 

모든 수준에서 평균이 동일한 것으로 판단이 가능하다

 

그래서 ICC 값이 나오고, 이 값이 크다면

 

 

그럼 이 무선효과가 있는지 검정은 어케하나?

 

고정효과분석과 마찬가지로 F검정 그냥 하면 된다

 

만약 F값이 괜찮으면, 무선효과가 존재한다고 보고

 

ICC 값 산출하면 된다

 

같은 통계검정량이니까,

 

고정효과모형에서 F검정 통과했으니

 

마찬가지로, 통과했다고 봐도 무방하고

 

다음으로 무선효과는 어케 확인하는가?

 

R로 하는 경우

 

lme4 패키지의 lmer 함수를 사용

 

lmer(종속변수 ~ (1| 집단변수), data = data, REML = T)

 

결과는 summary 함수

 

model <- lmer(우울 ~ (1| L2Y4_REG), data = homework, REML = T)

 

summary(model)

 

 

집단변수 분산 = 0.005927

잔차 분산 = 0.778282

 

로 추정된 것을 볼 수 있다

 

ICC 값까지 계산해보면,

 

0.0075..

 

크기가 뭐 잘 모르겠지만, 많이 작지 않나;;ㅋㅋ

 

그럼 이 두 개의 분산 합치면, 원래 우울 변수의 분산값과 유사할까?

 

 

상당히 유사하다

 

약간의 차이는 분산 추정 과정에서 어떤 방식으로 했는가(REML, ML 등)에서 오는 오차인 것으로 보인다

 

무선효과는 이 다음이 없다

 

그냥 이러고 끝 ㅋ

 

'교육통계 > STATA' 카테고리의 다른 글

분산분석 5. 상호작용  (0) 2023.09.04
분산분석 4. 이원분산분석  (0) 2023.09.04
STATA - 5.다중회귀  (0) 2023.09.04
STATA - 4.상관 & 단순회귀  (0) 2023.09.04
STATA- 3. 기술통계  (0) 2023.09.04