본문 바로가기
R

R / 표본검정 및 교차분석

by LWM 2020. 8. 5.
반응형

-중심 위치-

중심위치는 관찰된 자료들이 어디에 집중되어 있는가를 나타낸다. 정상적인 빈도곡선의 경우, 대체로 가운데에 집중되어 있다.  중심위치를 나타내는 측정치는 산술평균, 최빈값, 중앙값 등이 있다. 이 세 가지를 합하여 대표값이라고 부른다.

 

  • 산술평균

    중심위치를 알려주는 데에 가장 많이 사용되는 측정치이다.
  • 중앙값

    가운데 등수에 위치한 관찰지이다.

  • 최빈값

    가장 많이 관측되는 수, 즉 주어진 값 중에서 가장 자주 나오는 값이다.

 

 

 

 

mean() : 평균 구하는 함수

 

mode() : 최빈값 구하는 함수

 

median() : 중앙값 구하는 함수

 

variance() : 분산 구하는 함수

 

sd() : 표준편차 구하는 함수

 

sd()/mean() : 변동계수 구하는 함수

 

 

 

 

 

비대칭도(왜도)나 첨도를 구하려면 psych 라이브러리가 필요하다.

skew는 비대칭도이고 kurtosis는 첨도이다.

 

 

 

 

 

 

 

 

가설은 귀무가설과 연구가설로 구성되어 있다.

귀무가설은 H0로 표기하고  연구가설은 H1으로 표기한다.

 

 

 

 

-가설검정의 종류-

  • 양측검정
  • 단측검정

    단측검정에는 왼쪽꼬리검정과 오른쪽 꼬리 검정이 있다.

 

 

 

 

-가설검정의 순서-

  1. 귀무가설과 연구가설 설정
  2. 유의수준과 임계치 결정
  3. H0의 채택영역과 기각영역의 결정
  4. 통계량의 계산
  5. 통계량과 임계치의 비교 및 결론

 

 

 

 

 

-독립표본 t-검정 예제-

 

 

 

 

 

 

 

-교차분석-

통계자료를 수집 및 분석할 때 그 자료를 어떤 분류기준에 따라 표로 만들어 정리하면 복잡한 자료를 쉽게 이해할수 있다. 이때 분류기준에 따라 만들어진 표를 분할표라고 하며 분할표를 이용하여 여러 모집단의 성질에 대하여 설명하는 방법중 하나가 교차분석이다. 즉 교차분석은 두 변수간에 어떠한 관계가 있는가에 대한 알아보는 가장 기본적인 분석방법이다.

분할표로 정리된 자료를 분석하는 데에는 X²검정이 사용된다. X²검정은 다음의 세가지 목적을 가진다.

  1. 자료를 범주에 따라 분류하였을 때에 그 범주 사이에 관계가 있는지 여부를 알고자 한다. 이를 독립성 검정이라고 한다.
  2. 통계분석에서 모집단에 대한 확률 분포를 이론적으로 가정하는 경우에 조사자료가 어떤 특정 분포에서 나온 것인가를 알고자 한다. 이를 적합성 검정이라한다.
  3. 두개 이상의 다항 분포가 동일한지 여부를 검정하고자 한다. 이를 동일성 검정이라고 한다.

 

 

 

-교차분석 독립성 검정하기-

교차분석표를 만들기위해서는 gmodels 라이브러리를 설치해야한다.

또한 교차분석표 독립성 검정 관련 통계량을 산출하기 위해서는 vcd 프로그램을 설치해야한다.

library(gmodels)
library(vcd)
attach(mtcars)

#cyl변수를 행에, gear변수를 열에
CrossTable(mtcars$cyl, mtcars$gear)
mytable<-xtabs(~cyl+gear,data=mtcars)

#독립성 검정을 위한 통계량을 산출하는 명령어
chisq.test(mytable)

 

 

 

 

 

-t검정으로 두 모집단 평균비교하기-

var.equal = TRUE는 분산의 동일성 가정을 확인하기 위해 사용하는 코드이다.

또한 단측검정으로 왼쪽꼬리 검정인 경우는 alternative="less", 오른쪽 검정은 alternative="greater"을 입력한다.

 

 

행과열로 입력된 관게형 데이터 예를 들어 엑셀의 경우 명령어가 달라진다.

ch61=read.csv("D:/data/ch61.csv")
t.test(score~school, ch61)
factor

 

 

 

 

 

 

 

-쌍체표본 검정 예제-

위 예제는 식이요법 프로그램이 효과가 있는지 알기위한 분석이다.

t와 df의 유의확률은 0.017로 유의수준보다 낮으므로 귀무가설은 기각하고 연구가설을 채택함.

반응형

'R' 카테고리의 다른 글

R / 로지스틱 회귀분석  (0) 2020.08.06
R / 회귀분석  (0) 2020.08.06
R / 상관분석  (0) 2020.08.06
R / 분산분석(ANOVA)  (0) 2020.08.06
R 공부 1편  (1) 2020.08.04