csv를 parquet로 변환하는 데이터 전처리 파이프라인 예시
2021-05-11
.
Data_Engineering_TIL(20210511)
- 아키텍처 구조
step 1) s3에 file이 추가되거나 변경되면 s3 event trigger 발생
step 2) s3 event trigger로 실행된 lambda가 glue job을 호출
(아래 URL에서 my_lambda_function.py 첨부파일 참고)
step 3) glue job이 csv to parquet로 변환
(아래 URL에서 glue_job_script.py, my_glue_job_lib.py 첨부파일 참고)
** 아래 URL을 참고할것
https://github.com/minman2115/Data_engineering_studynotes_2021/blob/master/csv%EB%A5%BC%20parquet%EB%A1%9C%20%EB%B3%80%ED%99%98%ED%95%98%EB%8A%94%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%A0%84%EC%B2%98%EB%A6%AC%20%ED%8C%8C%EC%9D%B4%ED%94%84%EB%9D%BC%EC%9D%B8%20%EC%98%88%EC%8B%9C.zip