티스토리 뷰
반응형
데이터 형태가 다음과 같고 토지피복 유형별 야생동물 출현여부가 다른지를 통계검증하기 위해서 토지피복 유형 변수와 출현여부 변수간의 독립성 여부를 검증하나.
귀무가설: 토지피복 유형 변수와 출현여부 변수간 관련성이 없고 독립적이다.
대립가설: 토지피복 유형 변수와 출현여부 변수간 관련성이 있고 의존적이다.
즉 토지피복 유형별 선호가 다를지를 알아볼 수 있다.
데이터를 read.csv()함수를 이용하여 불러온다.
# 자료 불러오기기
df <-read.csv('data/animal_preference.csv')
df
table()함수를 이용해서 토지피복유형별 출현빈도를 계산한다. 사막에서 출현빈도가 가장 높고 습지가 가장 낮게 나타났다. 이러한 출현비도 차이가 토지피복 유형별 다른지를 통계검증하기 위해 카이제곱을 수행한다.
통계 검증을 위해서 R 프로그램 이용하여 chisq.test()함수를 이용하여 카이제곱 검증을 한다.
# 카이제곱 검증하기기
result <- chisq.test(df$presence, df$landcover, correct=FALSE)
# 결과 출력하기기
print(result)
결과는 다음과 같다. p-value값이 0.7756으로 0.5보다 크니까 귀무가설을 기각할 수 있는 충분한 증거가 없기 때문에 귀무가설을 채택한다. 즉 토지피복유형별 선호도 차이가 없다고 할 수 있다.
Pearson's Chi-squared test
data: df$presence and df$landcover
X-squared = 3.2595, df = 6, p-value = 0.7756
전체 코드
library(ggplot2)
# 자료 불러오기기
df <-read.csv('data/animal_preference1.csv')
head(df)
# 토지핍고유형별 출현빈도
m<-table(df$presence, df$landcover)
chisq.test(m)
# 카이제곱 검증하기기
result <- chisq.test(df$presence, df$landcover, correct=FALSE)
# 결과 출력하기기
print(result)
result$observed
result$expected
result$residuals
result$stdres
ggplot(df, aes(x = landcover, y =..count.., fill = presence)) +
geom_bar(position = "stack", width=0.5) +
geom_text(aes(label =..count..),
stat ="count",
position = position_stack(vjust = 0.5),
color = "white", size = 4, fontface ="bold")+
theme(axis.text.x = element_text(angle=65, vjust=0.6)) +
labs(title="Categorywise Bar Chart",
subtitle="Manufacturer of vehicles",
caption="Source: Manufacturers from 'mpg' dataset")
# 토지핍고유형별 출현빈도
table(df$sp, df$landcover)
# 카이제곱 검증하기기
result1 <- chisq.test(df$sp, df$landcover, correct=FALSE)
# 결과 출력하기기
print(result1)
반응형
'R 통계' 카테고리의 다른 글
phenofit 이용한 생물계절(phenology) 분석 (0) | 2024.05.08 |
---|---|
python, R을 위한 분석을 위해 가짜 데이터 생성하기 (1) | 2024.04.26 |
댓글