전체 글 92

교육통계 SPSS - 4. 다중회귀분석

다중회귀분석을 해볼까요. ​ 다중회귀분석을 위해 사용할 변수는 ​ 더미 변수를 포함해서 ​ 여학생더미, 학업열의, 학업 무기력을 독립변수로 하고 ​ 자아존중감을 종속변수로 해보겠습니다. ​ 1. 더미변수 만들기 ​ 더미변수를 만들기 위해서는 범주형 변수, 명목형 변수에서 ​ 관심있는 변수를 제외하고 모드 0으로 코딩하여, 변수 간의 차이를 확인할 수 있습니다. ​ 여학생더미는 남학생을 0으로, 여학생을 1로 코딩하면 되겠습니다. ​ 변수 변환을 위해 ​ 변환 탭 - 다른 변수로 코딩 변경을 눌러줍니다. ​ 그리고 성별 변수를 클릭 해서 화살표를 눌러줍니다. ​ ​ 출력변수의 이름 칸에 이름을 지정해주시고 바꾸기를 누릅니다. ​ ​ 그런 다음 기존 값 및 새로운 값을 눌러줍니다. ​ 원래 데이터에서는 남자..

교육통계/spss 2022.11.04

교육통계 SPSS - 3. 회귀분석

이제 회귀분석을 다루어 볼 차례가 되었네요. 사용할 변수는 학업열의, 자아존중감을 사용합니다. ​ 1. 회귀분석 ​ 분석 탭에서 회귀분석 - 선형을 눌러줍니다. ​ 그러면 ​ ​ 이렇게 화면이 등장하죠. ​ 그럼 이제 종속변수와 독립변수를 각각 넣어줍니다. ​ 여기서 저는 독립변수를 학업열의, 종속변수를 자아존중감으로 진행합니다. ​ 각 변수를 독립변수, 종속변수에 클릭 후 화살표를 눌러 넣어줍니다. ​ ​ 그리고 확인을 눌러줍니다. ​ 그러면 결과 창에 ​ 이렇게 나오죠?ㅎㅎ ​ 모형 요약에서 R제곱값을 확인합니다. ​ .189니까 학업열의가 자아존중감을 18.9% 정도 설명하고 있는 것으로 나타났습니다. ​ 분산분석 표에서는 회귀모형 자체가 유의했는지 아닌지를 알려주는 F검정을 시행합니다. ​ 유의확..

교육통계/spss 2022.11.04

교육통계 SPSS - 2. 상관분석

이번에는 상관분석을 알아볼까 합니다. ​대략적인 설명은 Rstudio 카테고리에 간단히 적었기에 ​ 여기서는 SPSS 실행방법만 간단하게 스윽 진행합니다.ㅋㅋㅎㅋ 1. 산포도 ​ 저번에 만들었던 학업열의와 자아존중감 두 가지 변수를 가지고 먼저 산포도를 그려볼께요. ​ 그래프 탭 - 도표 작성기를 눌러줍니다. 그러면 음 저는 ​ 이 경고 메시지가 뜨는데 ​ 그냥 확인 눌러줍니다..ㅋㅋ ​ 그러면 ​ 이 친구가 짜잔 등장하죠 ​ 여기서 그러면 저 아래에 '산점도/점도표'를 클릭하고 ​ 맨 위에 있는 친구를 클릭해서 가져다 놓습니다. ​ 그러면 이렇게 X축 / Y축 변수를 가져다 놓을 수 있는 그림이 등장하고 ​ 옆에 요소 특성이 있는데... 이 친구는 변수를 가져다 놓으면 통계량을 조정해서 사용할 수 있는..

교육통계/spss 2022.11.04

교육통계 SPSS - 1. 변수생성&기술통계

이전의 업로드해둔 것은 Rstudio를 활용해서 올렸습니다. ​ 내용은 같지만, spss를 사용하는 것도 스을쩍 올려보려 합니다. ​ R보다 간단(?)하니까 천천히 따라하시면 괜찮을 것 같아요 ​ 아마 SPSS 프로그램은 개인이 구비하기에는 좀 많이 비싸고 그래서 (돈 많으면 소장 하는 것은 안 말려요!ㅎㅋㅋ) ​ 학교나 기관에 계신분들은 각 학교나 기관 통해서 설치가 가능하실 것입니다. ​ 그것도 없으면.. 학교에 강력히 요구를 하셔야 합니다.. 등록금 아깝게 시리..ㅋㅋ ​ 암튼 활용하는 데이터 셋은 똑같이 아동청소년패널 KCYP2018 1차 자료입니다. ​ 1. 변수 만들기 ​ 앞선 R에서 학업열의, 자아존중감을 변수로 만들었는데 ​ 똑같이 만들어 보겠습니다. ​ 변수 생성은 변환 탭에서 변수계산을..

교육통계/spss 2022.11.04

텍스트마이닝-웹크롤링(2)

저번 장에 이어서 ​ 1. 링크를 정리해서 2. 기사의 언론사, 시간, 제목, 본문, 댓글 수를 긁어 데이터 프레임으로 조직한 다음 3. 댓글 내용만 따로 다시 정리하는 작업을 ​ 이어서 해보겠습니다. ​ 1. 네이버뉴스 링크 긁어오기 ​ 브라우저를 원격 조종할 때, 주로 xpath를 사용했습니다. ​ 이번에 사용할 함수는 'html_nodes'이어서, ​ 이번에 활용하는 것은 'css'입니다. ​ css구조를 통해서 html의 text를 긁어오는 그런 것으로..(아마도..?) ​ 일단.. 저번 화면에서 이어서 시작하면 ​ 개발자 모드를 활성화시킨 상태에서 보면, ​ ​ #mainpack 으로 잡힌 초록색 부분에서 ​ 아래 ​ 'a href = ~' 이렇게 두 곳을 주목해서 보면 됩니다. ​ a href..

텍스트마이닝-웹크롤링(1)

텍스트 마이닝이란 빅데이터 분석 방법 중 하나로, 이름에서 드러났듯이 텍스트를 분석하는 방법 중 하나이다. 텍스트 분석에서 일종의 내용 분석과도 유사한 부분이 있지만, 대량의 데이터를 분석하는 방법인 점에서 아마 차이가 있지 않을까..라고 생각해봤습니다 ㅋㅋ 텍스트 마이닝의 목적은 추출된 정보들을 활용해서 일종의 패턴을 발견하는 게 주목적으로 볼 수 있습니다. 태그에도 달아 두었지만, 특히 뉴스 댓글 같은 경우 수많은 사람들이 이래 저래 엄청나게 쓰지요 텍스트 마이닝을 활용한다면 댓글 수천개, 수만개 달린 것을 분석해서 댓글을 쓴 사람들이 어떤 이야기를 중심으로 이루어지고 있는지 살펴볼 수 있답니다(아마도..?) 텍스트마이닝 분석방법에는 대표적으로(?) 워드 클라우드(word cloud), 연관어 분석(..

텍스트마이닝-토픽모델링

1. 토픽 모델링이란..? ​ 텍스트 마이닝에 또 자주 쓰이는 방법론으로 토픽 모델링이라는 것도 있습니다. ​ 대규모의 텍스트 데이터의 집합에서 주요 주제를 발견하고, 구조화하는 방법인데요. ​ 토픽 모델링에서의 가정은 ​ 단어별로 특정한 '주제'를 담고 있다고 가정합니다. ​ 그래서 특정 단어들이 자주 발견되는 데이터 구조, 문장 구조들이 형성되어 있으면 ​ 그 단어들이 의미하는 주제를 담고 있다고 봅니다. ​ 예를 들어, 야구에 대한 같은 온라인 커뮤니티에 다양한 글들이 있겠죠. ​ 이런 글, 저런 글 모으다 보면 ​ 특정 글에서는 '이글스 파이팅'이라는 주제를 담고 있는 데이터 구조가 형성되어 있을 수 있고 ​ '이글스 해체해라' 등의 비방글도 있을 수도 있겠죠 ​ 이러한 주제들을 일일이 하나하나 ..

텍스트마이닝-연관어분석

1.연관어 분석이란..? 텍스트마이닝 분석 방법 중 하나로 연관어 분석(Association keyword analysis)이 있습니다. 연관어 분석이란 특정 단어가 어떤 맥락에서 등장하는지 파악하고, 단어들간의 관계성에서 의미를 파악하는 것입니다. 연관어 분석 중에서도 엔그램(N-grams) 분석 방법이 있습니다. 문장을 n개로 쪼개서 n개의 연결성을 보는 것인데요, 2개로 쪼개면 bi-grams, 3개로 쪼개면 tri-grams, 4개로 쪼개면 quad-grams 으로 분석이 됩니다. 예를 들면, 나는 행복합니다 이글스라 행복합니다. 라는 문장이 있다고 치면, bi-grams 로 분석했을 때 '나는'-'행복합니다' '행복합니다'-'이글스라' '이글스라'-'행복합니다' 라고 결과가 나올 수 있습니다. ..

텍스트마이닝-단어빈도, 워드클라우드

1. 단어 빈도 분석 ​ 명사를 담아둔 noun 객체를 활용해서 분석을 이어가 보겠습니다. ​ 특정 단어가 자주 등장한다면, 일단 그 단어에 주목해볼 필요가 있겠죠. ​ 마치 양적 연구에서 기술통계를 통해 변수의 평균과 표준편차 등을 살펴보듯이 ​ 어떤 단어가 자주 등장하는지 살펴보려 합니다. ​ 빈도 계산을 위해 dplyr 패키지 불러와주시고, ​ count와 filter, str_count 함수를 사용하려 합니다. ​ noun_frequency % count(word, sort = T) %>% filter(str_count(word)>1) ​ count: 전체 단어의 개수를 세어줍니다. filter: 특정 조건에 따른 값만 보여줍니다. str_count: word에서 1글자 초과하는(2글자 이상) 것..

텍스트마이닝-형태소분석

한글을 대상으로 하는 텍스트 마이닝을 할 때 ​ 필수 설치 패키지가 있습니다. ​ 1. KoNLP 패키지 설치 ​ 바로 KoNLP ​ KoNLP에 등록된 함수를 주로 사용합니다. ​ 이거 없으면.. 아마 아무도 못할껄요.. ​ R 환경이 계속 불안정해서 그런지 ​ 이게 설치된다 안된다 말이 많아서, ​ 이렇게 저렇게 다양한 해결방법이 있습니다. ​ 일단 제 컴퓨터 기준으로 설치된 방법은 ​ https://e-datanews.tistory.com/155 이곳을 참조했습니다. ​ install.packages("multilinguer") library(multilinguer) install_jdk() ​ install.packages(c("hash","tau","Sejong","RSQLite","devtoo..