교육통계/다층모형

다층모형 - 1. 이거 왜함?

개노답이글스 2023. 9. 4. 19:07

 

줄기차게 회귀분석만 돌리다가 보니

 

어디선가 한 번쯤

 

논문이나 책에서 '다층모형'이라는 것을 마주하게 된다

 

뭔.. 다층 모형이여.. ㅋㅋ

 

일단 시작은 다중회귀분석의 가정에서 시작된다

 

다중회귀분석의 기본 가정 4가지인가 5가지인가

 

① 독립성: 각 사례는 독립적이다

- 잔차(오차)간 상관은 0이다

② 선형성: X와 Y의 관계는 선형관계이다

③ 등분산성: X값에서의 Y분산은 모든 X에서 동일

④ 다변량 정규성: X, Y 모집단에서 정규분포를 따른다

⑤ 다중공선성 고려: 독립변수들 사이의 높은 상관관계 검토

 

여기서 주목해볼 것은

 

① 독립성: 각 사례는 독립적이다

- 잔차(오차)간 상관은 0이다

 

이 부분이 미심쩍은 이유가

 

학교상황을 예로 들어보자

 

 

데이터만 보고 있노라면, 다 하나 하나의 학생들로 인식하지

 

어디 학교, 어디 소속인지까지는 잘 안보긴 하니까

 

근데 이 구조속으로 들어가보면,

 

 

이러한 구조를 이루고 있다는 것이다

 

오호...

 

학교 1에 소속된 학생1-학생 4는

 

서로 상관이 존재할 수 있음을 의심하였다...

 

그는 바로.. 라우덴부쉬

 

Raudenbush, S., & Bryk, A. S. (1986). A hierarchical model for studying school effects. Sociology of education, 1-17.

(구글스칼라 검색 개추)

 

자세한 내용은 위 논문 참조..ㅎ

 

즉, 단순히 하나의 구조가 아니라

 

사회구조가 이렇듯 위계적 구조로 이루어져 이 두 가지 구조를 잘 반영해야

 

진짜 분석이다라고 하는데

 

만약, 이러한 구조가 존재함에도 불구하고

 

다중회귀분석으로 연구를 진행하면 다음과 같은 문제가 발생할 수 있다고 한다

 

분석방법 1. 학생 수준에서 분석

 

이렇게 되면,

 

X, Y 관계가 모든 학교에서 동일하다고 가정한다

 

즉, 오차간 상관이 없다고 보는 것인데(가정)

 

이런 경우에 만약, 실제로 오차간 상관이 존재할 경우 오차분산이 과소 추정되어

 

회귀계수 표준오차가 과소 추정되고

 

1종 오류 가능성이 증가하게 된다

 

이게 무슨소리가면..

 

t-검증은 표본의 수에 굉장한 영향을 받는다

 

데이터가 어떻든간에 표본 수가 많으면, t-검증은 스무스하게

 

패스할 가능성이 높아진다

 

이렇게 되면 살짝 찜찜한 상태로(나만 그런가ㅋㅋ) 유의성 검증을 하게 되어

 

문제가 있는 것 아닐까? 하는 의견

 

분석방법 2. 학교 수준에서 분석

 

모든 학생들의 데이터를 학교 수준으로 끌어내려서 분석을 실시한다

 

100명씩, 10개 학교가 있으면 100명의 값을 1개 학교 값으로 바꾸어서

 

딱 10개의 데이터만 사용하는 것이다

 

이렇게 되면 거의 완벽하게 독립성 가정이 만족되므로,

 

오차분산이 비교적 정확하게 계산된다

 

하지만, 표본의 수가 1000개에서 10개로 줄어들면..

 

모형설정도 어려워지고, 설명변수, 공변인 투입도 못하게 된다

 

더군다나 '학생수준'의 변수 투입은 물론이거니와

 

'집단화의 오류'도 발생하게 되는데...

 

이건 또 머선 소리냐...

 

다시 다시 찬찬히 살펴보면

 

예를 들어. 무지성으로 연구가설을 하나 세워보자

 

연구가설: 대학생교육봉사 프로그램 운영이 중학생 국어 성적에 영향을 주는가?

 

연구대상: 굉장히 체계적인 표본설계하에 수집된

 

중학교 40개, 학생 2000명 표집 및 표본 설정

 

모형 설정

 

일단 단순회귀식으로 작성 ㄱㄱ

 

 

대학생 교육봉사 프로그램 운영여부(1 = 운영, 0 = 미운영)에 따라서

 

국어성적이 어떻게 변화하는지 볼 수 있게 된다.

 

1) 학생수준 분석

 

하던대로 분석하자면, 종속변수가 학생의 국어성적이니까

 

표본 n = 2000을 활용해서 하던대로 회귀분석을 돌리면 되는데

 

이게 뭐가 문제냐고 하면,

 

교육봉사 프로그램 '운영'을 과연 학생수준에서 투입해서 보는게 적절한가

 

의문이 제기될 수 있다

 

이는 학교가 운영하는 것이기 때문에 학교 수준에서 분석해야 되는 것이 아닌가?

 

이를 무시하고 분석을 돌리면

 

어지간해서 유의미한 통계치를 보일 것이고, 표본이 크기 떄문에

 

회귀계수의 표준오차가 과소추정되어

 

영가설을 기각할 가능성이 매우매우 높아지게 된다

 

또한, 학생들끼리의 상관(오차간의 상관)이 과연 존재하지 않는가?

 

- 회귀분석의 가정 중 하나: 오차간의 독립성

같은 학교에 다니고 있다면, 학생들의 학교의 특성을 공유하고 있을 수 있어서 독립성 가정이 위배될 가능성이 존재함

 

2) 학교 수준 분석

 

독립성 가정으로 시비 거는 사람들의 의견을 반영하여 학교 수준으로 끌어올려보았다

 

그러면 일단 오차간 독립성은 확보될 것 같다

 

적어도 학교 끼리의 교류는 쉽지 않으니까

 

아니 그랬더니 표본이 n = 40 으로 확 줄어든다

 

이러면 다른 공변인은 꿈도 못꾼다

 

모형 추정도 불안정해질 것이고

 

설령, 분석한다고 할지라도 이제 '학생수준'에서의 해석이 불가능해진다

 

모두 집계화(aggregation) 했기 때문에 학교를 대표하는 값이 되어버렸다

 

원래 관심있던 학생의 국어 성적으로 해석을 할 수 없다.