교육통계/Rstudio

교육통계 R랑가몰라 - 1. 기술통계 1) 자료불러오기

개노답이글스 2022. 11. 2. 18:13

안녕하세요.

통계 프로그램들은 참 많지만 (SPSS, Mplus, Stata 등등)

무료로 사용할 수 있는 것은 몇 안 됩니다.

무료로 사용할 수 있는 프로그램 중 하나인 R을 활용하여 교육통계에 적용해보려 합니다.

통계 프로그램 별로 무슨 차이가 있는지, 어떤 게 더 좋은지를 궁금할 수 있는데요.

대학원에서 공부하면서 다른 선생님들이 항상 물어보더라고요

"선생님은 어떤 프로그램 쓰세요?"

교육 분야에서는 비공식적이 통계(?)로 아마 SPSS가 가장 지배적인 것으로 보입니다.

어딜 가나.. 학부시절부터 SPSS 돌릴 줄 알아야 한다는 협박을 들으면서 살았는데.

지금 와서 보면, 딱히 의미 없습니다.

밥 먹을 때 숟가락이든, 젓가락이든 포크든 자신이 편한 도구로 밥을 먹는 게 중요하지

밥 먹는 도구가 중요한 것은 아니거든요. 다만, 특정 통계 방법에 적합한 프로그램이 있긴 합니다.(구조방정식이나 HLM 정도?)

그러나 기술 통계나 간단한 통계_회귀, 분산, t-검정 등을 사용할 때

각각의 통계 프로그램이 보여주는 결과는 거의 차이가 없으니까요.

무엇이든 자신이 가장 편한 도구 사용하시면 됩니다.

이번 장에서는 통계에 가장 기본이 되는 데이터 불러오기를 하고자 합니다.

-------------------------------------------------------------------------------------------------------------------------------

1. 활용 자료

사용하는 자료는 한국아동청소년정책 연구원에서 제공하는 한국아동청소년 패널조사(KCYP 2018) 중학생 패널조사 자료입니다.

https://www.nypi.re.kr/archive/board?menuId=MENU00220

패널조사이며, 자세한 내용은 홈페이지에 가시면 볼 수 있습니다.

자료는 간단한 자료 사용 동의서를 작성하고 나면 무료로 사용할 수 있습니다.

자료를 다운로드할 수 있는 자료로 넘어가면 다음과 같은 화면이 나타납니다.

[그림 1] 데이터 다운로드 화면

여기서 원하시는 자료를 다운로드하면 됩니다.

저는 SPSS 용과 CSV로 받아보도록 하겠습니다.

데이터만 받지 마시고 꼭 Usergide와 Codebook도 같이 다운로드하여주세요.

유저 가이드는

코드북은 실제 설문지, 설문 조사별 코딩 등 내용이 포함되어 유용하게 참고할 수 있습니다.

이 두 가지도 데이터셋과 마찬가지로 자료실에서 다운로드 가능합니다.

-------------------------------------------------------------------------------------------------------------------------------

2. R로 데이터 불러오기

2-1 Rstudio 환경설정

다운로드한 후에 Rstudio 프로그램으로 데이터를 불러오겠습니다.

여기서 한 가지 주의하실 점이 있습니다.

컴퓨터 계정의 이름이 한글로 되어있다면, Rstudio가 오류 메시지가 상당히 뜹니다.

본인 사용하시는 계정 이름이 한글이라면... 새로운 계정을 생성하여서 영어로 만들기를 추천드립니다.

[그림 2] R 기본 화면

프로그램을 실행하면 대부분 [그림 2]와 같이 나타날 텐데요.

마찬가지로 Rstudio에서 활용하는 경로(?)에도 한글이 있으면 무척 애먹습니다.

[그림 3] R working directory

기본 화면에서 탭을 선택하고 Global option을 선택하면 [그림 3]과 같이 지금 사용하고 있는 R 버전과 R-working directory를

확인할 수 있습니다. 조금 세분화해서 설명을 하면,

C:/ - C 드라이브에서

Users/study - 사용자 계정 이름이 study

//Desktop - 바탕화면에서

/R - 'R'이라는 폴더에서 작업 중입니다.

새로운 작업 경로를 만들려면, Browse 누르고 영어 이름으로 된 폴더를 만들어 설정하는 것을 추천드립니다.

-------------------------------------------------------------------------------------------------------------------------------

2-2 데이터 불러오기

데이터를 불어올 때 직접 코딩을 해서 불러오는 방법도 있고

아니면 클릭 몇 번으로 파일 불러오기를 실행하는 방법도 있습니다.

코드 입력하기 귀찮은 저는 파일 불러오기를 하겠습니다.

[그림 4] Import Dataset

먼저 Environment 탭에서 Import Dataset을 클릭합니다.

[그림 5] Import Dataset 2

그러면 이렇게 사용하려는 데이터 맞게 불러올 수 있습니다.

아까 SPSS 용 자료와 CSV 자료를 다운로드했는데요.

SPSS는 당연히 From SPSS를 누르면 되고,

CSV는 From Text를 누르면 불러오기가 실행됩니다.

만약 사용하는 자료가 Excel이라면From Excel을 누르면 됩니다ㅎ

일단 SPSS로 해보겠습니다.

[그림 6] Import Dataset 3

Browse를 누르면 파일 찾으라는 창이 뜨고, 저장해놓은 파일을 불러오면 됩니다.

저는 2차년도 자료인 KCYPS2018m1Yw2를 불러오겠습니다.

[그림 7] Import Dataset 4

불러오면 자료가 이렇게 생성이 됩니다.

밑에 보다시피 코드같이 등장하는데, 이런 식으로 불러오지 않으면 저 긴 내용을 모두 타이핑을 해야 하는 거죠^^

Import 누르면 완료입니다.

[그림 8] Import Dataset 5

불러오기가 되었다면 Environment에 데이터가 등장합니다.

2590 obs. of 378 variables를 보면

2590명의 데이터가, 378개의 변수를 통해 조사된 자료임을 알 수 있습니다.

[그림 9] Data set

제 화면은 저렇게 정체불명의 문자들이 나타나는데

저거는 다 한글이고요, 변수를 설명하는 내용이 붙어있습니다.

각 변수의 설명은 자료의 코드북을 보면 확인 가능합니다(자료 다운로드한 사이트에서 코드북을 검색해보세요!)

부디, 이걸 보고 사용하시는 선생님의 Rstudio는 한글을 읽어주길 바랍니다.... ㅎ (원인을 모르겠네... 사무실 컴퓨터는 한글 나오던데..)

이렇게 데이터를 불러오는 것으로 자료 분석의 시작점이 되겠습니다!

참고로 CSV로 불러오는 방법은 SPSS로 불러오는 방법과 마찬가지입니다.

From text 누르고 파일 찾아서 클릭하고

[그림 10] csv파일 불러오기

[그림 10]처럼 불어올 텐데요, 마찬가지로 Import 누르면 끝입니다.

되는데 이때 꼭 Heading에서 Yes를 클릭하여주세요.

이것을 설정해야 변수 이름을 변수로 인식하지 않습니다.

csv는 첫 행이 변수 이름으로 되어있는 파일인데, 이거를 무시하고 넘어가면 나중에 처리하기 굉장히 귀찮습니다..^^ 시간적 여유가 많으신 분은 시험해보는 것도 좋습니다 ㅎ

no를 체크하신 분은 obs가 2591개로 한 개 더 추가되어 나옵니다.

한편 사용하시는 컴퓨터에 따라서 csv로 불러오면 에러가 사악 나타날 수 있습니다.

특히 텍스트 데이터를 불러오게 되면 말이죠..ㅠ

그럴 때는 csv 파일을 1차로 엑셀에서 불러온 다음

데이터 탭에서 텍스트/csv 불러오기를 클릭하시면

txt 파일을 불러와서

다른 이름으로 엑셀 파일로 저장한 후

SPSS 불러오는 방법과 유사하게 R에서 불러면 됩니다.

이렇게 엑셀파일로 불러오는 방법을 사용할 수도 있습니다.

다음장에서는 변수 만드는 방법 알아보겠습니다.

감사합니다!