전체 글 92

다층모형 - 5. 중심화(centering) R

센터는 중요하다 테란 커멘드센터 날라가면 GG 쳐야 되고 아이돌 그룹의 센터가 중심을 잡아줘야 하고 야구에서 센터라인이 부실하면 수비가 개 XX 이라는 거고 (여전히 이글스는 이게 안되고 있지 ㅋㅋ 중견수 빨리 데려와..) 축구에선 센터링, 양질의 센터링을 올리면 공격수가 쉽게 슈팅 찬스를 잡듯이 (이강인 만세) 회귀모형에서도 센터링은 중요하다 (이말하려고 헛소리 살짝 지껄여봄) 앞서 다루었던 회귀모형에서 센터링을 다룬 적이 있었다. 센터링의 주된 이유로는 '절편'의 해석 독립변수가 '0'일 때 종속변수 절편이 해석이 되는데 이분형 변수가 아니고서야 독립변수가 '0'이 의미를 가질 수 있는 게 무엇이 있을까 독립변수가 소득이라면, 소득이 0에 딱 맞는 사람이 집계되기란 쉽지 않겠지 그래서 센터링 즉, 중..

다층모형- 4.횡단모형(STATA)

1.무조건모형 stata에서도 마찬가지로 무조건 모형부터 찬찬히 살펴보자 통계분석 -> 다층 혼합효과모형 -> 선형회귀를 클릭 종속변수 넣고 확률효과 모형에 '생성'을 클릭해주자 수준 변수에 '학교 수준' 변수를 넣어주고 기타 딱히 추가할 것은 없어보이니 확인 클릭 그러고 나면, 방정식 1이라고 표기되는데 그 다음 확인 클릭하면 분석이 진행된다 명령문은 가장 위쪽에 있고 아래 고정효과(절편)과 확률효과(분산)이 확인가능하다 대표사진 삭제 사진 설명을 입력하세요. 표 오른쪽 상단에 보이는 것은 기본적인 사례수, 2수준 변수 사례수를 확인 가능하고 그룹당 최소 1명, 최대 60명 평균 29.6명이 존재하며 아래 wald chi2와 Prob 는 기존모형에 비해 현재 모형에 대한 검증을 해주는 것인데, 현재 무..

다층모형 - 3.데이터생성(STATA)

STATA로도 merge를 해보자 일단 가지고 있는게 sav밖에 없는데.. 일단 sav로 불러보고 그 다음에 여기 데이터 -> 데이터 결합 -> 데이터 병합 클릭 오 spss랑 뭔가 비슷하다 키변수 설정해주고 불러들일 데이터 파일 설정해주면 현재 stata에 올라간 데이터가 더 많으니까(학생) 왼쪽이 M, 오른쪽이 1로 설정 (반대의 경우, 반대로 설정..ㅋㅋ) 아잇.. 에러.. sav 취급 안 한다고..? 그럼 우짜겠노.. dta로 변환해줘부러.. 현재 데이터가 불러와 있는 상태에서 "다른 이름으로 저장" 을 누르면 .dta로 저장이 가능하다 자 그럼 다시.. .dta로 불러.. 매칭이 안 된 것도 알려주는 구나 오 신기해 일단 저장 ㄱㄱ

다층모형- 4.횡단모형(R)

아주 간단한 횡단모형을 분석해보자 학생들의 창의성에 수업태도(1수준), 운영방식(2수준), 설립유형(2수준)이 유의한 영향을 주는가? 저번에 만들었던 통합데이터로 시작~ 1. 기술통계 아 일단 기술통계는 슬쩍 확인하고 가야겠지? R로 기술통계 내는데 원톱은 아무래도 psych 패키지 일단 그전에 case_when으로 더미변수 변환할 때, numeric이 character로 바뀌었으니 다시 numeric으로 돌려~ clean_data %>% mutate(private = as.numeric(private)) -> clean_data 이렇게 돌린다음에. describe 함수로 기술통계 확인 근데 그냥 돌리면 학생 ID와 학교 ID도 모두 기술통계에 포함되서 쫌 뵈기 그렇다 그러니, 이 놈들은 제외해주고 de..

다층모형 - 3.데이터생성(SPSS)

SPSS 데이터 합치기 이것도 사실 앞에서 다루었던 기억이 뭔가 뭔가 나는데 뭐 그냥 한 번 더 써보기로 한다 아까 R로 편집했던 데이터를 활용해서 학생 데이터를 먼저 열어본다 데이터탭 -> 파일 합치기 클릭(SPSS버전에 따라 이름이 다를 수 있음) -> 변수 추가 클릭 그러면 이런 화면이 짜잔 현재 열려 있는 데이터 파일이 없기 때문에 아래 외부 SPSS 머시기만 활성화되어 있는데, 만약, 학교 데이터도 열어 두었다면, '열려 있는 데이터 파일'이 활성화 된다 일단 '찾아보기' 클릭해서 학교데이터 불러오고 "계속"클릭 그러면 이런 화면이 뜨는디 왼쪽에 '제외된 변수'는 학생 데이터와 학교 데이터에서 값이 똑같아서 뜨는 거로 보면 된다 즉 "KEY"변수의 역할을 할 수 있다 그래서 이렇게 저 학교번호를..

다층모형 - 3.데이터생성(R)

다층 모형 분석을 하려면 그에 적합한 데이터가 필요하다 당연 1수준, 2수준 정보가 포함되어 있는 데이터를 활용해서 이 둘을 통합, merge를 해야 한다. 데이터 만드는 작업을 R, STATA, SPSS로 함 해보았다 활용한 데이터는 KEDI 교육종단연구 2013 1차년도 학생, 학교장 자료를 사용하였다. 앞으로 분석 연습에 종속변수는 창의성 1수준 변수는 수업태도 2수준 변수는 학교운영방식, 사립더미 이렇게 쓴다 생각하고 변수를 만들어보았다 ㅎㅋㅋ 기본 데이터는 SPSS용 SAV를 사용한다 먼저 R부터 1. 데이터 불러오기 R로 SPSS 데이터를 불러오려면 haven 패키지가 필요하다 haven 설치후 불러오고 학생, 학교 자료를 R로 불러온다 경로에 당연 데이터가 있어야 하고 (따로 폴더 만들어서 ..

다층모형 - 2.기본 구조

그럼, 다층구조를 반영해서 식을 작성해보면 어떻게 될까 원래 보던 회귀식에서 아래 첨자들이 추가 되었다 다층구조가 적용된만큼, 그 수준을 반영하여 식이 표기된 것으로 보면 된다 이제 종속변수는 j번째 학교의 i 번째 학생을 나타내는 값이 된다 1. 오차가 두 개? 설명변수를 제외하고 다시 식을 작성해보자 절편과 오차항만 남아 있게 되는데 절편을 한 번 더 해부 해보려 한다 해부해보면 40개의 학교가 있다면, j 번째 학교의 점수가 있을 것이고 j 번째 학교 점수는 40개 학교의 평균 + 나머지 잔차로 설명할 수 있게 된다 이렇게 해부 한 ② 식을 ①에 넣으면 이렇게 표현할 수 있다 예를 들어 보자 40개 중학교 학생들의 국어성적 평균이 65점 이었고, 40개 학교 중 하나인 이글스 중학교의 평균은 70점..

다층모형 - 1. 이거 왜함?

줄기차게 회귀분석만 돌리다가 보니 어디선가 한 번쯤 논문이나 책에서 '다층모형'이라는 것을 마주하게 된다 뭔.. 다층 모형이여.. ㅋㅋ 일단 시작은 다중회귀분석의 가정에서 시작된다 다중회귀분석의 기본 가정 4가지인가 5가지인가 ① 독립성: 각 사례는 독립적이다 - 잔차(오차)간 상관은 0이다 ② 선형성: X와 Y의 관계는 선형관계이다 ③ 등분산성: X값에서의 Y분산은 모든 X에서 동일 ④ 다변량 정규성: X, Y 모집단에서 정규분포를 따른다 ⑤ 다중공선성 고려: 독립변수들 사이의 높은 상관관계 검토 여기서 주목해볼 것은 ① 독립성: 각 사례는 독립적이다 - 잔차(오차)간 상관은 0이다 이 부분이 미심쩍은 이유가 학교상황을 예로 들어보자 데이터만 보고 있노라면, 다 하나 하나의 학생들로 인식하지 어디 학교..

분산분석 5. 상호작용

1.상호작용? A, B 따로 따로 보는 게 아니라 사실 같은 영향안에 있는 것이니까 서로 상호작용이 있는 거 아니냐? 원래있던 기득권 세력인 주효과 A, B와 함께 상호작용효과 A*B도 고려해야 하는 것 아닌가 하는 생각은 또 누가 시작했을 까 상호작용 효과가 있다면, 그 평균의 차이가 주효과(A, B)에 의한 것이 아니라 서로 영향을 주고 받고 있어서 주효과+상호작용 효과로 봐야 되는 것 아닌가? 라고 누가 시작했다 상호작용 효과를 확인하기 위해서는 그래프과 효과적이긴 한데 상호작용이 없는 경우, 두 직선이 평행 또는 일치된 상태를 보인다 x축에 집단 변수 둘 중 1개, Y축은 종속변수 x축은 해당 수준에 따른 값을 표기해준다 아래 그림에선 X1, X2 모두 2개의 수준만 가지고 있다고 했을 때 이렇게..

교육통계/STATA 2023.09.04

분산분석 4. 이원분산분석

일원분산분석에서 요인, 집단을 구부하는 변수 하나만 넣고 분석을 한 건데 두 개 넣고 싶으면 어쩌나 했을 때 쓰는 방법이 이원분산분석 가령, 앞서 우울을 지역규모로만 구별해서 분석을 했는데 학교 성별유형(남녀공학, 남학교, 여학교)에 따라서도 약간 차이있지 않을까 라는 쓸데없는 생각이 든다면 그 때 쓸 수 있다. 아니 근데 두 개면 일원분산분석 두 번 하면 되는 거 아니냐고 할 수 있는데 그걸 언제 하나 하나 돌리고 있노.. 보다는 t-test 에서 다중검정의 문제가 있을 수 있으니 그냥 한 큐에 하자고.. 1.일단 먼저 고정효과모형 수식을 살펴보자 A집단의 평균과 B집단의 평균과 함께 오차항으로 구성되어 있고 이걸 다시 풀어쓰면 세상 끔찍하지만 한 번 만 더 분산분석스럽게 정리하면 --- 중간 과정까진..

교육통계/STATA 2023.09.04