교육통계/Rstudio

교육통계 R랑가몰라 5. t-test

개노답이글스 2022. 11. 2. 19:42

 

안녕하세요 이번에는 t-test, t 검정에 대해서 알아보려 합니다.

 

t-test는 집단 간 평균 차이를 검증할 때 사용하는 방법입니다.

 

그리고 검증을 위해선 평균값이 두 개가 있어야 합니다.

 

세 개 이상이면 분산분석을 사용하지요 ㅎ

 

t-test에서도 하나의 집단에서 평균값을 두 번 뽑아서 분석할지

 

아니면 두 개의 독립된 집단에서 평균값을 각각 뽑아서 분석할 지에 따라

 

대응표본 분석과 독립 표본 분석으로 나누어집니다.

 

대응표본은 전자인, 하나의 집단에서 두 개의 평균을

 

독립 표본은

 

-------------------------------------------------------------------------------------------------------------------------------

 

1. 독립 표본 분석

 

연구 문제로 저는 남학생과 여학생의 우울에는 차이가 있는가로 잡아보겠습니다. 그러면

 

영가설: 남학생과 여학생의 우울에는 차이가 없다.

대립 가설: 남학생과 여학생의 우울에는 차이가 있다.

 

이렇게 되겠네요

 

그럼 변수를 만들어보고, 늘 그랬듯이 앞서 사용한 데이터 셋을 사용합니다. ㅎ

 

[그림 1] 변수 생성 및 데이터 프레임 만들기

[그림 2] 데이터 프레임

이제 여기서 남학생과 여학생 값을 분리해서 각각 값을 만들어야 하는데요

 

흐음

 

여기서 사용하는 함수는 subset입니다.

 

subset(데이터셋, 조건식, 추출하고자 하는 열 이름)

 

남학생은 1, 여학생은 2로 코딩되어 있기 때문에 각각 조건을 만들어서 식을 만들어보겠습니다.

 

[그림 3] 집단 나누기

이러면 이제 남학생, 여학생 집단이 각각 나타납니다.

 

이때, 독립 표본 분석에서는 각 표본이 추출되는 것이 다르기 때문에 두 집단의 등분산 가정이 만족해야 t-test를 이어갈 수 있습니다.

 

등분산 검정을 위해서는 var.test함수를 사용합니다.

 

등분산 검정을 위한 가설은 다음과 같습니다.

 

영가설: 두 집단의 분산은 차이가 없다(같다)

대립 가설: 두 집단의 분산은 차이가 있다

 

var.test(데이터셋$열1, 데이터셋$열2)

 

[그림 4] 등분산 가정 검정

[그림 5] 등분산 가정 검정 결과

아.. 간신히 0.05가 넘었네요

 

일단.. 넘어가죠 ㅎㅎ 영가설 만족으로 분산이 같은 거라 하겠습니다ㅎ

 

잠시 기술통계를 describe함수로 확인을 해보겠습니다.

[그림 6] 남학생-여학생 기술통계

오 평균이 조금 차이가 있네요. 이제 이것이 유의하게 차이가 있는 것인지 t-test를 해보겠습니다.

 

t.test함수:

 

t.test(집단1데이터, 집단2데이터, paired=F, var.equal = T, alternative="two.sided")

 

paired = 조건은 독립표본 분석이면 False, 대응 표본이면 T로 설정합니다.

var.equal = 등분산 가정 성립하는지 여부를 보고 True라고 합니다.

alternative = "two.sided" 유의도검정시 양측 검정으로 설정하는 것을 뜻합니다. 가설의 타당성을 위해 양측 검정을 많이 사용하는 것 같아요

 

이 식을 적용한다면

[그림 7] t-test 독립 표본 검증

결과는 바로~

 

 

[그림 8] t-test 독립 표본 검증 결과

오 통계적으로 유의하게 나왔습니다. 즉, 영가설을 기각하고 대립 가설을 채택하게 되네요

 

t값이 -인 이유는 남학생 값에서 여학생 값을 빼서 그런 것 같습니다.

 

실제로 여학생의 값이 더 높네요

 

결론은 남학생과 여학생의 우울은 차이가 있는 것으로 나타났고, 여학생이 남학생에 비해 우울이 더 높은 것으로 나옵니다

 

이런 식으로 정리할 수 있을 듯합니다

 

 

 

-------------------------------------------------------------------------------------------------------------------------------

 

2. 대응표본 분석

 

대응표본은 동일한 집단내에서 두 번의 측정값을 사용해서 분석을 할 때 사용합니다.

 

주로 실험 연구, 유사 실험 연구에서 많이 사용하는 것 같아요

 

예를 들면, A집단에게 B조치를 취하기 전의 값을 한 번, 사전 테스트 값을 뽑고

 

이후 B조치를 가한 다음, 사후 테스트 값을 뽑아서 사전 값과 사후 값을 비교하면서 사용하기도 하지요

 

저에게는 실험 데이터는 없기 때문에..

 

사용하던 데이터의 1차, 2차 연도 데이터를 통해서 적용해보겠습니다.

 

가설은

 

영가설: 중학교 1학년(1차 연도)과 중학교 2학년(2차 연도)의 우울에는 차이가 없다

대립 가설: 중학교 1학년(1차 연도)와 중학교2학년(2차 연도)의 우울에는 차이가 있다

[그림 9] 변수 생성

1차년도 데이터를 가져와서 우울 변수를 만들었습니다.

 

그리고 1차년도 2차년도 기술통계 값을 각각 보면(study4: 2차, study5:1차)

[그림 10] 기술통계값

2차 연도가 더 낮네요 ㅎㅎ

 

그럼 바로 t-test를 하면

 

[그림 11] 대응표본 t검정 분석 결과

paired = T는 대응이니까 True로 설정합니다.

 

결괏값은 통계적으로 유의하게 나왔습니다. 영가설을 기각하고 대립 가설을 채택해야겠네요 ㅎ

 

그러면 1학년 때의 중학생과 2학년 때의 중학생들의 우울은 차이가 있고, 중학교 1학년 때 우울이 더 높은 것으로 나타나는 것으로 나옵니다.

 

이렇게 정리하면 되지 않을까요 ㅎ

 

이렇게 t검정 독립 표본 검정, 대응표본 검정에 대해 알아보았습니다.

 

감사합니다.