AWS DataSync 기초개념 및 핸즈온

2020-02-20

.

Data_Engineering_TIL_(20200220)

1. 개요

“완전관리형 파일 복제서비스”

  • 데이터를 source 영역에서 destination 영역으로 보내는 옵션은 여러 옵션중 하나

  • 그러면 DataSync를 사용하면 사용자가 얻을 수 있는 이득이 뭐냐?

1) 복제하려고 하는 폴더의 경로를 선택적으로 필터링 가능

2) 복제 과정에서 파일 권한이나 타임스탬프 정보도 선택적으로 복제가능

3) 복제 후에 원본 객체가 제대로 복사되었는지 검증가능

4) 복제 작업을 병렬적으로 수행가능

2. 활용양상

양상 1) FileServer(On-prem) to S3 or EFS (AWS)

양상 2) EFS (AWS A region) to EFS (AWS B region) , 같은 리전끼리도 가능

양상 3) S3 (AWS A region) to EFS (AWS B region) , 같은 리전끼리도 가능

결론적으로 NFS (On Prem or AWS), EFS (AWS), S3 (AWS)의 조합이며 다른 AWS 리전이나 계정으로 넘어가는 구성이 추가적으로 있다고 보면된다.

이때 복제는 Datasync의 Agent가 설치된 버츄얼머신을 두가지 형태로 제공한다.

1) On Prem 환경에서 사용하는 VMWare 이미지

2) AWS 환경에서 사용하는 Region별 AMI

3. DataSync를 이용한 S3 -> EFS 파일복사 핸즈온

  • 구현할 아키텍처

3

step 1) s3 버킷에 source 데이터 위치 확인

1

step 2) DataSync 에이전트 생성

2

step 3) EFS 생성

4

step 4) DataSync task 생성

5

step 4) DataSync task Start 및 결과 확인

6