Glue를 이용한 S3 to Redshift 데이터 마이그레이션 방안

2020-09-04

.

STEP 0) 사전준비조건 확인

  • S3에 데이터 파일 업로드, Redshift 클러스터 생성, 보안그룹, IAM, 네트워크 등

STEP 1) 마이그레이션 하고자 하는 데이터 파일에 대한 글루 메타테이블 생성

  • 글루 디비 생성

  • 크롤러 생성

  • 크롤러를 실행하여 s3의 파일 데이터를 대상으로하여 글루 디비 내에 메타테이블 생성

  • 글루 connection 메뉴에서 Glue to Redshift 연결설정

  • 연결 테스트로 Redshift 정상연결여부 확인

STEP 2) Glue job 생성

  • Glue의 job 메뉴에서 add job 클릭

  • This job runs 옵션에서 ‘A proposed script generated by AWS Glue’ 선택

  • Choose a data source에서는 STEP 1)에서 글루 크롤러로 생선한 글루 디비 내의 메타테이블을 선택해준다.

  • Choose a data target에서 Create tables in yout data target 선택하고, STEP 1)에서 연결했던 것을 선택한다.

  • 스키마를 확인하고, Glue job code source를 확인한 다음에 Run job을 실행하면 S3 to Redshift 데이터 마이그레이션이 완료된다. (글루가 글루 메타테이블을 참조하여 S3에 있는 데이터를 Redshift로 적재한다.)

STEP 3) Redshift에 접속해서 데이터 정상적재여부 확인

  • Redshift 콘솔로 이동해서 Editor 메뉴를 클릭하고 해당 Redshift 클러스터로 접속한다.

  • Select schema에서 public을 선택하면 STEP 1)에서 생성한 글루 메타테이블 이름과 동일한 테이블을 확인할 수 있다. 그거를 선택하고 preview data를 클릭하면 데이터 샘플을 확인할 수 있다.