티스토리 뷰

반응형

 

데이터 형태가 다음과 같고 토지피복 유형별 야생동물 출현여부가 다른지를 통계검증하기 위해서 토지피복 유형 변수와 출현여부 변수간의 독립성 여부를 검증하나.

 

귀무가설: 토지피복 유형 변수와 출현여부 변수간 관련성이 없고 독립적이다.

대립가설: 토지피복 유형 변수와 출현여부 변수간 관련성이 있고 의존적이다.

 

즉 토지피복 유형별 선호가 다를지를 알아볼 수 있다.

 

 

데이터를 read.csv()함수를 이용하여 불러온다.

# 자료 불러오기기
df <-read.csv('data/animal_preference.csv')
df

 

table()함수를 이용해서 토지피복유형별 출현빈도를 계산한다. 사막에서 출현빈도가 가장 높고 습지가 가장 낮게 나타났다. 이러한 출현비도 차이가 토지피복 유형별 다른지를 통계검증하기 위해 카이제곱을 수행한다.

 

통계 검증을 위해서  R 프로그램 이용하여 chisq.test()함수를 이용하여 카이제곱 검증을 한다.

# 카이제곱 검증하기기
result <- chisq.test(df$presence, df$landcover, correct=FALSE)

# 결과 출력하기기
print(result)

결과는 다음과 같다. p-value값이 0.7756으로  0.5보다 크니까 귀무가설을 기각할 수 있는 충분한 증거가 없기 때문에 귀무가설을 채택한다.  즉 토지피복유형별 선호도 차이가 없다고 할 수 있다.

Pearson's Chi-squared test

data:  df$presence and df$landcover
X-squared = 3.2595, df = 6, p-value = 0.7756

 

 

전체 코드

library(ggplot2)

# 자료 불러오기기
df <-read.csv('data/animal_preference1.csv')
head(df)

# 토지핍고유형별 출현빈도
m<-table(df$presence, df$landcover)

chisq.test(m)

# 카이제곱 검증하기기
result <- chisq.test(df$presence, df$landcover, correct=FALSE)

# 결과 출력하기기
print(result)

result$observed
result$expected
result$residuals
result$stdres


ggplot(df, aes(x = landcover, y =..count.., fill = presence)) +
  geom_bar(position = "stack", width=0.5) +    
  geom_text(aes(label =..count..), 
            stat ="count",
            position =  position_stack(vjust = 0.5), 
            color = "white", size = 4, fontface ="bold")+
  theme(axis.text.x = element_text(angle=65, vjust=0.6)) +
  labs(title="Categorywise Bar Chart", 
       subtitle="Manufacturer of vehicles", 
       caption="Source: Manufacturers from 'mpg' dataset")


# 토지핍고유형별 출현빈도
table(df$sp, df$landcover)

# 카이제곱 검증하기기
result1 <- chisq.test(df$sp, df$landcover, correct=FALSE)

# 결과 출력하기기
print(result1)
반응형
댓글