안녕하세요.
통계 프로그램들은 참 많지만 (SPSS, Mplus, Stata 등등)
무료로 사용할 수 있는 것은 몇 안 됩니다.
무료로 사용할 수 있는 프로그램 중 하나인 R을 활용하여 교육통계에 적용해보려 합니다.
통계 프로그램 별로 무슨 차이가 있는지, 어떤 게 더 좋은지를 궁금할 수 있는데요.
대학원에서 공부하면서 다른 선생님들이 항상 물어보더라고요
"선생님은 어떤 프로그램 쓰세요?"
교육 분야에서는 비공식적이 통계(?)로 아마 SPSS가 가장 지배적인 것으로 보입니다.
어딜 가나.. 학부시절부터 SPSS 돌릴 줄 알아야 한다는 협박을 들으면서 살았는데.
지금 와서 보면, 딱히 의미 없습니다.
밥 먹을 때 숟가락이든, 젓가락이든 포크든 자신이 편한 도구로 밥을 먹는 게 중요하지
밥 먹는 도구가 중요한 것은 아니거든요. 다만, 특정 통계 방법에 적합한 프로그램이 있긴 합니다.(구조방정식이나 HLM 정도?)
그러나 기술 통계나 간단한 통계_회귀, 분산, t-검정 등을 사용할 때
각각의 통계 프로그램이 보여주는 결과는 거의 차이가 없으니까요.
무엇이든 자신이 가장 편한 도구 사용하시면 됩니다.
이번 장에서는 통계에 가장 기본이 되는 데이터 불러오기를 하고자 합니다.
-------------------------------------------------------------------------------------------------------------------------------
1. 활용 자료
사용하는 자료는 한국아동청소년정책 연구원에서 제공하는 한국아동청소년 패널조사(KCYP 2018) 중학생 패널조사 자료입니다.
패널조사이며, 자세한 내용은 홈페이지에 가시면 볼 수 있습니다.
자료는 간단한 자료 사용 동의서를 작성하고 나면 무료로 사용할 수 있습니다.
자료를 다운로드할 수 있는 자료로 넘어가면 다음과 같은 화면이 나타납니다.
[그림 1] 데이터 다운로드 화면
여기서 원하시는 자료를 다운로드하면 됩니다.
저는 SPSS 용과 CSV로 받아보도록 하겠습니다.
데이터만 받지 마시고 꼭 Usergide와 Codebook도 같이 다운로드하여주세요.
유저 가이드는
코드북은 실제 설문지, 설문 조사별 코딩 등 내용이 포함되어 유용하게 참고할 수 있습니다.
이 두 가지도 데이터셋과 마찬가지로 자료실에서 다운로드 가능합니다.
-------------------------------------------------------------------------------------------------------------------------------
2. R로 데이터 불러오기
2-1 Rstudio 환경설정
다운로드한 후에 Rstudio 프로그램으로 데이터를 불러오겠습니다.
여기서 한 가지 주의하실 점이 있습니다.
컴퓨터 계정의 이름이 한글로 되어있다면, Rstudio가 오류 메시지가 상당히 뜹니다.
본인 사용하시는 계정 이름이 한글이라면... 새로운 계정을 생성하여서 영어로 만들기를 추천드립니다.
[그림 2] R 기본 화면
프로그램을 실행하면 대부분 [그림 2]와 같이 나타날 텐데요.
마찬가지로 Rstudio에서 활용하는 경로(?)에도 한글이 있으면 무척 애먹습니다.
[그림 3] R working directory
기본 화면에서 탭을 선택하고 Global option을 선택하면 [그림 3]과 같이 지금 사용하고 있는 R 버전과 R-working directory를
확인할 수 있습니다. 조금 세분화해서 설명을 하면,
C:/ - C 드라이브에서
Users/study - 사용자 계정 이름이 study
//Desktop - 바탕화면에서
/R - 'R'이라는 폴더에서 작업 중입니다.
새로운 작업 경로를 만들려면, Browse 누르고 영어 이름으로 된 폴더를 만들어 설정하는 것을 추천드립니다.
-------------------------------------------------------------------------------------------------------------------------------
2-2 데이터 불러오기
데이터를 불어올 때 직접 코딩을 해서 불러오는 방법도 있고
아니면 클릭 몇 번으로 파일 불러오기를 실행하는 방법도 있습니다.
코드 입력하기 귀찮은 저는 파일 불러오기를 하겠습니다.
[그림 4] Import Dataset
먼저 Environment 탭에서 Import Dataset을 클릭합니다.
[그림 5] Import Dataset 2
그러면 이렇게 사용하려는 데이터 맞게 불러올 수 있습니다.
아까 SPSS 용 자료와 CSV 자료를 다운로드했는데요.
SPSS는 당연히 From SPSS를 누르면 되고,
CSV는 From Text를 누르면 불러오기가 실행됩니다.
만약 사용하는 자료가 Excel이라면From Excel을 누르면 됩니다ㅎ
일단 SPSS로 해보겠습니다.
[그림 6] Import Dataset 3
Browse를 누르면 파일 찾으라는 창이 뜨고, 저장해놓은 파일을 불러오면 됩니다.
저는 2차년도 자료인 KCYPS2018m1Yw2를 불러오겠습니다.
[그림 7] Import Dataset 4
불러오면 자료가 이렇게 생성이 됩니다.
밑에 보다시피 코드같이 등장하는데, 이런 식으로 불러오지 않으면 저 긴 내용을 모두 타이핑을 해야 하는 거죠^^
Import 누르면 완료입니다.
[그림 8] Import Dataset 5
불러오기가 되었다면 Environment에 데이터가 등장합니다.
2590 obs. of 378 variables를 보면
2590명의 데이터가, 378개의 변수를 통해 조사된 자료임을 알 수 있습니다.
[그림 9] Data set
제 화면은 저렇게 정체불명의 문자들이 나타나는데
저거는 다 한글이고요, 변수를 설명하는 내용이 붙어있습니다.
각 변수의 설명은 자료의 코드북을 보면 확인 가능합니다(자료 다운로드한 사이트에서 코드북을 검색해보세요!)
부디, 이걸 보고 사용하시는 선생님의 Rstudio는 한글을 읽어주길 바랍니다.... ㅎ (원인을 모르겠네... 사무실 컴퓨터는 한글 나오던데..)
이렇게 데이터를 불러오는 것으로 자료 분석의 시작점이 되겠습니다!
참고로 CSV로 불러오는 방법은 SPSS로 불러오는 방법과 마찬가지입니다.
From text 누르고 파일 찾아서 클릭하고
[그림 10] csv파일 불러오기
[그림 10]처럼 불어올 텐데요, 마찬가지로 Import 누르면 끝입니다.
되는데 이때 꼭 Heading에서 Yes를 클릭하여주세요.
이것을 설정해야 변수 이름을 변수로 인식하지 않습니다.
csv는 첫 행이 변수 이름으로 되어있는 파일인데, 이거를 무시하고 넘어가면 나중에 처리하기 굉장히 귀찮습니다..^^ 시간적 여유가 많으신 분은 시험해보는 것도 좋습니다 ㅎ
no를 체크하신 분은 obs가 2591개로 한 개 더 추가되어 나옵니다.
한편 사용하시는 컴퓨터에 따라서 csv로 불러오면 에러가 사악 나타날 수 있습니다.
특히 텍스트 데이터를 불러오게 되면 말이죠..ㅠ
그럴 때는 csv 파일을 1차로 엑셀에서 불러온 다음
데이터 탭에서 텍스트/csv 불러오기를 클릭하시면
txt 파일을 불러와서
다른 이름으로 엑셀 파일로 저장한 후
SPSS 불러오는 방법과 유사하게 R에서 불러면 됩니다.
이렇게 엑셀파일로 불러오는 방법을 사용할 수도 있습니다.
다음장에서는 변수 만드는 방법 알아보겠습니다.
감사합니다!
'교육통계 > Rstudio' 카테고리의 다른 글
교육통계 R랑가몰라 2. 기초통계 - 2) 회귀분석 (0) | 2022.11.02 |
---|---|
교육통계 R랑가몰라 2. 기초통계 - 1) 상관관계 (0) | 2022.11.02 |
교육통계 R랑가몰라 - 1. 기술통계 4) 기술통계 결과확인하기 (0) | 2022.11.02 |
교육통계 R랑가몰라 - 1. 기술통계 3) 역문항 포함된 변수 만들기 (0) | 2022.11.02 |
교육통계 R랑가몰라 - 1. 기술통계 2) 변수 만들기 (0) | 2022.11.02 |