csv를 parquet로 변환하는 데이터 전처리 파이프라인 예시

2021-05-11

.

Data_Engineering_TIL(20210511)

  • 아키텍처 구조

step 1) s3에 file이 추가되거나 변경되면 s3 event trigger 발생

step 2) s3 event trigger로 실행된 lambda가 glue job을 호출

(아래 URL에서 my_lambda_function.py 첨부파일 참고)

step 3) glue job이 csv to parquet로 변환

(아래 URL에서 glue_job_script.py, my_glue_job_lib.py 첨부파일 참고)

** 아래 URL을 참고할것

https://github.com/minman2115/Data_engineering_studynotes_2021/blob/master/csv%EB%A5%BC%20parquet%EB%A1%9C%20%EB%B3%80%ED%99%98%ED%95%98%EB%8A%94%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%A0%84%EC%B2%98%EB%A6%AC%20%ED%8C%8C%EC%9D%B4%ED%94%84%EB%9D%BC%EC%9D%B8%20%EC%98%88%EC%8B%9C.zip