R활용 20

텍스트마이닝-연관어분석

1.연관어 분석이란..? 텍스트마이닝 분석 방법 중 하나로 연관어 분석(Association keyword analysis)이 있습니다. 연관어 분석이란 특정 단어가 어떤 맥락에서 등장하는지 파악하고, 단어들간의 관계성에서 의미를 파악하는 것입니다. 연관어 분석 중에서도 엔그램(N-grams) 분석 방법이 있습니다. 문장을 n개로 쪼개서 n개의 연결성을 보는 것인데요, 2개로 쪼개면 bi-grams, 3개로 쪼개면 tri-grams, 4개로 쪼개면 quad-grams 으로 분석이 됩니다. 예를 들면, 나는 행복합니다 이글스라 행복합니다. 라는 문장이 있다고 치면, bi-grams 로 분석했을 때 '나는'-'행복합니다' '행복합니다'-'이글스라' '이글스라'-'행복합니다' 라고 결과가 나올 수 있습니다. ..

텍스트마이닝-단어빈도, 워드클라우드

1. 단어 빈도 분석 ​ 명사를 담아둔 noun 객체를 활용해서 분석을 이어가 보겠습니다. ​ 특정 단어가 자주 등장한다면, 일단 그 단어에 주목해볼 필요가 있겠죠. ​ 마치 양적 연구에서 기술통계를 통해 변수의 평균과 표준편차 등을 살펴보듯이 ​ 어떤 단어가 자주 등장하는지 살펴보려 합니다. ​ 빈도 계산을 위해 dplyr 패키지 불러와주시고, ​ count와 filter, str_count 함수를 사용하려 합니다. ​ noun_frequency % count(word, sort = T) %>% filter(str_count(word)>1) ​ count: 전체 단어의 개수를 세어줍니다. filter: 특정 조건에 따른 값만 보여줍니다. str_count: word에서 1글자 초과하는(2글자 이상) 것..

교육통계 R랑가몰라 2. 기초통계 - 3) 다중회귀분석1

안녕하세요. 이번에는 다중회귀분석에 대해 알아보겠습니다. 저번 회귀분석에 이어서 작업을 하고 있습니다. 사용하는 변수는 학업열의, 학업 무기력, 자아존중감입니다. 단순회귀분석에서는 독립변수가 1개일 때 사용하는 분석방법입니다. 다중회귀분석은 독립변수가 2개 이상일 때 사용하는 분석방법으로, 다양한 예측 요인들을 알아보고자 할 때 사용됩니다. ------------------------------------------------------------------------------------------------------------------------------- 1. 다중회귀분석 저번 회귀분석 때 기술통계부터 천천히 다뤘기 때문에 여기서는 바로 회귀분석으로 넘어가겠습니다. 다중회귀 분석할 때도 마찬가..

교육통계 R랑가몰라 9. 구조방정식(SEM) 5) 자기회귀교차지연모형

잠재성장모형에 이어 ​ 또 다른 종단 분석방법을 살펴볼까요. ​ 자기회귀교차지연모형입니다. ​ 1. 간단한 이론..? ​ ​ 예시 모형에서 보다시피 여러 시점에서 측정된 변수들 간의 관계를 살펴봅니다. ​ 특정 시점의 변수가 다른 시점의 변수에 어떻게 영향을 주는지 볼 수 있겠죠? ​ 이 모형의 장점은 시간 관계 안에서 변수들의 관계를 살펴보는 것입니다. ​ 간단하게(?) 보이는 모형에 ​ 여러 단계를 거쳐야 하는 귀찮음이 있지만 ​ 그래도 잘 연습하면 유용한 분석 모형이 될 것이라 생각됩니다. ​ 거쳐야 하는 단계는 측정 동일성 -> 경로 동일성 -> 오차 공분산 동일성을 검정을 하고 난 다음 ​ 최종 모형이 결정됩니다. ​ 위 예시 모형을 다시 세세하게 보면 ​ 이런 모양이 나옵니다.​ ​ 측정 동일..

교육통계 R랑가몰라 9. 구조방정식(SEM) 4) 잠재성장모형

지금까지 뭔가 올렸던 것은 횡단 연구 방법이었습니다. 횡단만 다루면 조금 아쉬운 부분이 있죠 횡단 연구의 장점으로 일반적인 경향을 파악하고, 개인 간 비교가 용이한 점은 있지만 1. 개인의 성장과 발달과정을 파악하기는 어렵고 2. 분석을 통해 얻은 결과가 특정 시점에서만 유효한지, 다른 시점에서도 유효한 지 모르고 3. 변수들간 시간적 선행성 확보가 쉽지 않습니다 **참고자료: 이종승, 2009, 교육심리사회 연구방법론** 특히 이 '시간적 선행성 확보'가 쉽지 않은 점은 주로 관심 있는 '인과적 효과'를 밝히기 쉽지 않다는 점입니다. 사회과학 특성상, 실험 연구가 쉽지 않기 때문에 분석 결과를 인과관계로 표현하기 어렵고 시간적 선후관계도 불명확하다는 점이 아쉽죠. 그래서 시간에 따른 변수 간의 관계 파..

교육통계 R랑가몰라 9. 구조방정식(SEM) 3) 경로모형

안녕하세요, 이번엔 구조방정식 경로 모형에 대해서 알아보려 합니다. 저번 요인분석에 이어서 이번엔 드디어(?) 변수들을 활용해서 서로 어떤 관계를 가지고 있는지 구조방정식에 적용해볼까요. 저번장에서 다루었던 모형 검증에서 이어갑니다. 1. 모형설정 모형검정을 통해 제가 사용하려고 했던 행동통제, 학업시간관리, 학습활동, 삶의 만족도, 자아존중감 5가지 변인의 요인 분석을 마쳤고 이제 이 변수들간의 관계를 설정해서 보고자 합니다. 물론, 이 변수들간의 관계를 설정하는 데 있어서 정말 열심히 이론적 배경을 고려해야 하나 여기서는... 너무 귀찮.. 연습이니까요.. R을 활용하는데 중점을 둔ㅎㅎ 다음 그림과 같은 관계를 가지고 있지 않을까 하는 가정을 먼저 해봅니다. 1. 행동통제가 자아존중감, 삶의 만족도에..

교육통계 R랑가몰라 9. 구조방정식(SEM) 2) 모형검증

안녕하세요, 이번엔 구조방정식 모형 검증 방법에 대해 알아보려 합니다. 구조방정식은 다양한 변수들간의 관계를 보여주는 분석방법이라 다양한 모델, 모형이 나타납니다. 그래서 다양한 모형 가운데 가장 적합한 모형을 찾아서 최종 결과에 올려야 되기 때문에 경쟁모형 간에 검증이 필요합니다. 1. 모형검증에 사용하는 통계치 구조방정식에서 주로 사용하는 통계치는 카이제곱 차이 검정, TLI, CFI, RMSEA 값을 주로 쓰는 것 같습니다. 분석에서 나타나는 여러 모형의 각 값들을 비교하여 가장 양호한 값을 띄고 있는 모형을 최종 모형으로 선정하면 되는데요 예를 들어 모형 1과 모형 2를 두고 비교한다면, 카이제곱 차이검정은 모형 1과 모형 2의 카이제곱 값을 차이 검정을 진행하고, TLI, CFI, RMSEA 는..

교육통계 R랑가몰라 9. 구조방정식(SEM) 1) 요인분석(확인적요인분석)

안녕하세요, 이번에는 저번장에 이어 확인적 요인 분석을 이어가 보도록 하겠습니다. 2) 확인적 요인분석 활용 데이터는 KCYP 2010 5차년도 자료로 같습니다. 사용하는 변수는 행동통제, 학업시간관리, 학습활동, 삶의 만족도, 자아존중감입니다. 설문에서 행동통제에 대해서 5문항, 학업시간관리 4문항, 삶의 만족도 3문항, 자아존중감 10문항으로 구성되어 있습니다. 확인적 요인 분석은 탐색적 요인 분석과 다르게 이미 설문을 구성할 때 1번부터 몇 번 문항까지는 00에 대한 문항이야 라고 정해진 것을 반영해서 분석을 하니까 앞선 탐색적 요인 분석보단 간단할 것 같아요..ㅋㅋ 여기서 사용할 패키지는 'lavaan'입니다. 이 패키지를 사용하기 위해서는 먼저 '모델'을 설정해두어야 합니다. 모델에서 어떤 변수..

교육통계 R랑가몰라 9. 구조방정식(SEM) 1) 요인분석(탐색적요인분석)

안녕하세요, 이번엔 구조방정식에 대해 알아보려 합니다. ​ 이전까지 살펴보았던 회귀분석에서는 ​ 하나의 독립변수가 종속변수에 또는 여러 가지의 독립변수가 종속변수에 어떻게 영향을 주고 있는지를 ​ 분석하는 방법이었다면, ​ 구조방정식은 회귀분석을 응용한 고급 분석방법이랄까요.. ​ 변수들 간의 관계를 회귀식으로 풀어내는 분석방법인데요..ㅎ ​ 예를 들면, 학업열의 와 학업 무기력이 자아존중감에 미치는 영향을 분석한 것은 다중회귀분석을 사용했는데.. ​ 이 종속변수로 사용했던 자아존중감이 학업열의 나 학업 무기력에도 영향을 줄 수 있는 것은 아닐지 ​ 또 다른 '경로'를 생각해볼 수 있죠. ​ 여기에 변수가 더 추가되면 훨씬 복잡한 회귀 식이 나오겠죠..? ​ 아마 그래서 구조방정식(structural e..

교육통계 R랑가몰라 8. 다항(서열)로지스틱 회귀분석

안녕하세요, 이번엔 다항 로지스틱 회귀분석에 대해 알아보려 합니다. ​ 저번에 다루었던 로지스틱은 종속변수의 값이 0 또는 1의 값을 가지는 이항 로지스틱이지만, ​ 어쩌면 종속변수가 범주 변수처럼 1, 2, 3, 4 등등의 값을 가지는 변수를 분석할 상황이 올 수도 있겠죠. ​ 이때 사용하는 분석방법이 바로 다항 로지스틱입니다. ​ 7장에서 사용하였던 아동청소년 패널 2018 1차 자료 ​ 설문 중에 '장래 희망직업 결정 여부'가 있습니다. ​ 코딩은 ​ 1. 아직 하고 싶은 직업을 정하지 않았다 ​ 2. 대강 하고 싶은 직업이 있다. ​ 3. 구체적으로 정해 놓은 직업이 있다. ​ 이렇게 되어 있었고요. ​ 독립변수도 7장과 같이 여학생 더미, 학업열의, 자아존중감, 학업 무기력을 사용하려 합니다. ..