티스토리 뷰

반응형

1. TensorFlow 컨볼루션 신경망을 사용한 EuroSAT 토지 피복 분류

 

토지 피복은 나지, 농경지, 잔디, 숲, 목초지 및 물 등과 같은 지표 대상물체를 포함하여 지구 표면에서 감지된 생물학적 물리적 상태입니다. 이러한 토지피복정보를 얻어내는 다양한 방법이 존재하고 기본적인 과정에는 현장 조사와 함께 원격으로 탐지된 위성영상 이미지를 사용하는 것을 포함합니다.

 

위성에서 탐지된 모습

이번 과정에서 사용되는 데이터는 EuroSAT 데이터세트로 Sentinel-2 위성 이미지로 구성되어 있습니다. Sentinel-2 데이터세트는 공개적으로 다운로드할 수 있습니다.
아래 여러장의 그림은 무작위로 선택된 15개의 토지정보 샘플을 보여주고 10개의 가능한 토지정보 범주 중 8개를 나타냅니다. 나머지 두 개의 보이지 않는 클래스는 목초지(HerbaceousVegetation)와 강(River)입니다.

 

우측 상단부터 z 형태로 토지정보는 연간 농경지, 영구 농경지, 고속도로, 산림, 바다호수, 연간 농경지, 거주지, 산림, 초지, 산업단지이다.

위의 그림에서 각 토지피복범주 사이에 명백한 시각적 차이가 있습니다. 따라서 합리적인 경험적 가정은 산림, 목초지 및 연간작물 농경지 범주 사이에 잠재적인 혼동을 예상합니다. 또한 고속도로와 강 이미지는 비슷한 경향이 있습니다. 그러나 일반적으로 신경망이 적절한 기능 매핑을 충분히 학습할 수 있는 적절한 구별 속성이 있는 것으로 보입니다.

아래 그림은  10개의 토지피복 정보 별 각각의 개수 분포를 보여주는데,  총 27,000개의 레이블이 지정되고 지리 참조된 이미지가 있습니다. 지리 참조는 항공 사진의 좌표 시스템이 지리 좌표의 지상 시스템과 관련되어 있음을 의미합니다. 따라서 지리 정보 시스템(GIS)은 이미지를 적절한 실제 위치에 '배치'할 수 있습니다.

 

토지정보별 샘플 데이터 개수

기계 학습 작업은 종종 학습, 테스트 및 검증의 세 가지 데이터를 사용합니다. 사용 가능한 데이터의 크기에 따라 학습/검증/테스트 백분율 분할은 달라진다. 학습에 60%, 검증에 20%, 최종 평가에 20%의 데이터를 사용하는 것이 일반적이다.

반응형

 
학습데이터(60%):

역전파 알고리즘을 통해 CNN의 매개변수를 조정하기 위해 경사 하강을 수행하는 데 사용되는 레이블이 지정된 데이터
검증데이터(20%):

모델을 학습하면서 매 반복 수행할 때 마다 모델 성능을 평가하는데 사용되는 검증 데이터
평가데이터(20%):

모델을 최종적으로 평가하는 데 사용되는 레이블이 없는 미지의 평가 데이터

아래 구문은 학습데이터, 검증데이터, 평가데이터를 생성하는데 사용되는 keras 패키지의 image_dataset_from_directory() 함수를 이용한 구문이다.

# ===============================================================================
# create training, validation and testing dataset

batch_size = 32
train_dataset = image_dataset_from_directory(
    train_data_dir,
    validation_split=0.2,
    subset="training",
    seed=123,
    image_size=(img_height, img_width),
    batch_size=batch_size)

validation_dataset = image_dataset_from_directory(
    train_data_dir,
    validation_split=0.2,
    subset="validation",
    seed=123,
    image_size=(img_height, img_width),
    batch_size=batch_size)
반응형
댓글