- 딥러닝 21
- 환경설정 5
- Classification 20
- Python 75
- Data Engineering 388
- 선형회귀분석 17
- 참여연구 1
- 추천시스템 4
- 수학기초 21
- 네트워크 추론방법 1
- 자료구조 알고리즘 44
- terraform 7
- PCA 1
- Computer Science 5
- 감성분석 1
- 클러스터링 5
- 데이터전처리 31
- 시계열분석 7
- 토이프로젝트 5
- Java 7
딥러닝
- Randomly Wired Neural Networks 기초개념
- NASNet 기초개념
- Squeeze and Excitation Networks 기초개념
- ResNeXt 기초개념
- DenseNet 기초개념
- CNN Case Study(LeNet-5, AlexNet, ZFNet, VGGNet, GoogLeNet)
- Keras 창시자로부터 배우는 TensorFlow 2.0 + Keras 오버뷰자료 실습
- JAX 기초 및 간단한 선형회귀모델 구현실습
- TF v2 활용을 위한 numpy 기초 실습
- TF v2 기초 실습
- TF v2를 이용한 mnist image classification MLP model 구현
- 딥러닝의 도전과제
- Mobilenet를 차용하여 fine tuning 한 형태의 CNN 구현실습
- CNN 구현실습
- Neural network 기초개념
- Back propagation 기초개념
- Neural Network 이해를 위한 회귀모델 구현 기초
- 딥러닝을 위한 환경설정법
- ResNet 기초
- Neural network 구현실습(TF 1.xx ver)
- CNN 기초개념
환경설정
- 윈도우 환경에서 휴대폰 테더링 네트워크를 이용한 EC2 SSH 접속 시도시 접속이 안되는 현상 해결방법
- 버츄얼박스 우분투 가상디스크 용량부족시 조치방법
- 윈도우 운영체제에서 우분투 가상환경 구축방법
- 딥러닝을 위한 환경설정법
- windows 운영체제에서 텐서보드 사용환경 구축방법
Classification
- xgboost 기초개념
- 부스팅방법 기초개념
- Random forest 기초개념
- Model combining 기초개념
- Decision tree 기초개념
- 퍼셉트론 기초개념
- 로지스틱 회귀분석 기초개념
- 분류모델 성능평가 기초개념
- 머신러닝 모형 선택관련 간략한 가이드라인
- 머신러닝 모형최적화 기초개념
- 분류모형 개요
- 커널 서포트 백터머신 기초개념
- 다중클래스 분류문제 기초개념
- 교차검증 기초개념
- 서포트 백터머신 기초개념
- 그레디언트 부스트 모델 간략한 사용법
- 나이브 베이즈 모델 기초개념
- QDA와 LDA 기초개념
- 로지스틱 회귀모델 구현실습
- 동물보호센터 구조동물 최종 처분결과 예측 모델링
Python
- python 멀티프로세싱 - process간 데이터 교환 디자인패턴
- python 멀티쓰레딩 - ThreadPoolExecutor 샘플코드
- python 멀티쓰레딩 동기화 예시
- python 멀티쓰레딩 디자인 패턴 예시 - producer&consumer pattern
- Python lambda, map, filter 함수 기본개념
- Python 할당과 복사 기본개념
- Python 파일 입출력 기본개념
- Python 예외처리 기본개념
- Python 모듈과 패키지 기본개념
- Python 클래스 심화개념
- Python 클래스 기본개념 1-3
- 해시테이블 기본개념
- 이진탐색 기본개념
- Linked list 기본개념
- 병합정렬 기본개념
- 동적계획법과 분할정복 기본개념
- quick sort 기본개념
- 삽입정렬 기본개념
- 선택정렬 기본개념
- Bubble sort 기본개념
- 코딩테스트 할때 체크리스트
- 헷갈리는 python 가변 매개변수 기본개념
- 일일코테 - 프로그래머스 '멀쩡한 사각형'
- 일일코테 - 프로그래머스 '124 나라의 숫자'
- 일일코테 - 프로그래머스 '문자열 압축'
- Python 클래스 기본개념 2-3
- 일일코테 - 프로그래머스 '1차 뉴스 클러스터링'
- 일일코테 - 프로그래머스 '오픈채팅방'
- 일일코테 - 프로그래머스 '짝지어 제거하기'
- 일일코테 - 프로그래머스 '더 맵게'
- 일일코테 - 프로그래머스 '입국심사'
- '이것이 취업을 위한 코딩 테스트다' 서적 학습노트
- 알고리즘 연습방법
- heap 기초개념 및 구현실습 - 패캠 알고리즘&기술면접 인강
- Hash Collision 해결을 위한 알고리즘 기초개념
- 파이썬 기초문법을 이용한 각종 도형그리기 연습
- 파이썬 기초문법 연습문제 풀이
- iterator와 generator 기초개념
- args 문법 기초개념
- MST(최소비용 신장트리) 기초개념 및 구현실습
- Python 클래스 기본개념 3-3
- 최단경로 알고리즘 기초개념 및 구현실습
- graph 기초개념 및 구현실습
- heap 기초개념 및 구현실습 - 양태환 강사님 강의
- Sorting 알고리즘 기초개념 및 구현실습
- Red black tree 기초개념 및 구현실습
- B-tree 기초개념
- BST 기초개념 및 구현실습
- Binary tree 기초개념 및 구현실습
- Balanced binary tree 기초개념
- 후위표기법 계산기 기초개념 및 구현실습
- maze 알고리즘 기초개념 및 구현실습
- 스텍프레임 기초개념
- Single Linked List 기초개념 및 구현실습
- 기타 파이썬 프로그래밍 기초개념
- pseudo_list 구현실습
- 선형탐색과 이진탐색 기초개념 및 구현실습
- Dummy Double Linked List 기초개념 및 구현실습
- 자료구조 개요 및 기본자료구조
- Recursive call 기본개념
- OOP 기초개념
- Python TIL (20180807)
- Python TIL (20180806)
- prefix_sum 알고리즘을 이용한 문제풀이
- Python TIL (20180802)
- Python TIL (20180731)
- Python TIL (20180730)
- 해시테이블 기초개념
- 탐욕알고리즘 기초개념
- 다익스트라 알고리즘 기초개념
- 너비우선탐색 기초개념
- scipy, sympy를 이용한 미적분 기초학습
- recursion 개념을 이용한 알고리즘 연습문제 풀이
- Prefix sum 개념을 이용한 알고리즘 구현연습
- memorization
Data Engineering
- docker compose를 이용해서 local 환경에 spark cluster 구성하기
- 카카오게임즈 데이터 파이프라인 운영사례
- 데브시스터즈 데이터 플랫폼 운영사례 - scalable한 데이터 플랫폼 운영하기
- python 멀티프로세싱 - process간 데이터 교환 디자인패턴
- python 멀티쓰레딩 - ThreadPoolExecutor 샘플코드
- python 멀티쓰레딩 동기화 예시
- python 멀티쓰레딩 디자인 패턴 예시 - producer&consumer pattern
- 워크로드 특성에 따른 S3 운영방안
- 기본적인 AWS VPC 구성의 정석
- AWS API Gateway 기본개념
- REST API 기본개념
- AWS ECS를 이용한 Airflow 운영사례 - 원티드랩
- 광고 데이터 수집을 위한 데이터 파이프라인 운영 사례 - 매드업
- 카카오 게임즈 로그데이터 파이프라인 운영 사례
- python을 이용한 db 데이터 etl script 예시
- intellij Java gradle 개발환경 셋팅하기
- intellij Java maven 개발환경 셋팅하기
- mac에서 java 설치하기
- 데이터 엔지니어링 관점에서 java 언어 개요
- GCP VM instance에 ops agent 설치할때 트러블슈팅 참고자료
- AWS RDS에 대한 confluent CDC connector 연결 실습
- GCP 프로젝트별로 리소스 현황을 파악하는 스크립트 예시
- Web API call로 다운로드한 csv를 Bigquery에 적재하는 스크립트 예시
- confluent ksqldb를 이용한 실시간 데이터 파이프라인 구성 실습
- centos docker in docker 실습환경 구성하기
- Python client를 이용한 Confluent kafka 실습
- Python AsyncIO를 이용한 웹사이트 멀티 스크랩핑 예시
- 구글드라이브 액셀파일 to 빅쿼리 테이블 자동화 예시
- AWS 서버리스 애플리케이션 부하 테스트 및 성능개선 예시
- 빅쿼리 CTAS 쿼리를 실행하는 python 스크립트 예시
- Datalake 환경에서 AWS Redshift 활용방안
- Secret manager를 이용한 안전한 서버리스 어플리케이션 구현 실습
- AWS 서비스를 이용한 데이터 파이프라인 구축방안
- 빅쿼리 CTAS 쿼리 예시
- 빅쿼리 메타정보 조회 쿼리 예시
- AWS 서비스를 이용한 REST API 기반 서버리스 애플리케이션 구현
- S3 객체 업로드시 이메일을 발송하는 간단한 AWS 서버리스 아키텍처 구현
- 빅쿼리 테이블 권한부여 자동화 참고자료
- Spark Execution 프로세스 도식화
- GCP composer 내부 시스템 접속하기
- GCP Stream Processing with Cloud Pub/Sub and Dataflow 실습
- GCP Composer 사용간 발생했던 문제점 및 해결방안
- Building an IoT Analytics Pipeline on Google Cloud 실습
- GCP IAM 및 Role 정보를 추출하는 python 스크립트 예시
- Kafka burrow를 이용한 consumer lag 관리 기본개념
- 쿠버네티스 - 비밀정보를 깃옵스로 관리하는 방법
- AKHQ에서 카프카 클러스터 컨트롤 해보기
- kafka server properties 기본개념
- airflow slack 알람 구현 예시
- 컨테이너로 kafka 클러스터 구성하기
- Hadoop 코어 컴포넌트 - 하둡 공통모듈
- 각종 빅쿼리 명령을 수행할 수 있는 python 스크립트 예시
- Hadoop 핵심개요
- Terraform 기본개념 실습 워크샵
- airflow variable을 이용한 DAG 구현예시
- 카프카 설치 및 기본 컴포넌트 동작 실습
- VPC endpoint를 이용한 내부통신 기본개념도
- VPC에서 인터넷과 통신하는 흐름 기본개념도
- Spark Backend(Catalyst, Tungsten) 기본개념
- 빅쿼리 time travel 기능 기본개념
- 빅쿼리 중심의 ETL 파이프라인 아키텍처 예시
- spark 주요버전 업그레이드 히스토리 요약
- EMR Studio with EMR on EKS 실습 워크샵
- GCP Audit log 기본개념
- 쿠버네티스 파드 내부로 접근하기
- EMR on EKS 실습 워크샵
- 사용자 관점에서 PyTorch와 Tensorflow의 트랜드 및 전망-스크랩 자료
- log4j 보안 취약점 점검작업 스크립트 예시
- 리눅스에서 백그라운드로 명령어 실행하는 예시
- Github master branch에 pull request로 merge한 내역 원복하기
- Hadoop 기본개념('형준킴 염창동형준킴'님 블로그 MapReduce&HDFS 이해하기)
- AWS CLI로 EKS 클러스터 접근하는 예시
- 빅쿼리 기본개념
- APP이나 환경마다 EKS 클러스터를 나누어야 하는지에 대한 노하우
- AWS를 이용한 실시간 데이터 파이프라인 구축 기본개념
- 빅데이터 플랫폼 아키텍처 기본개념
- Gitops 기본개념
- 운영중인 IAM user의 User name 변경하기
- EKS 클러스터를 컨트롤하기 위한 클라이언트 IAM 인증 기본개념
- EKS 컨테이너 및 네트워크 차원에서의 보안 기본개념
- 클러스터 내의 노드 차원에서 EKS 보안 기본개념
- Github pull request 알람받기
- github ssh 설정하기
- Athena로 EMR log를 검색하는 예시 쿼리
- 클러스터 차원에서의 EKS 보안 기본개념
- Horizontal Pod Autoscaler를 이용한 EKS 파드 오토스케일링 실습
- EKS 데이터 플레인 오토스케일링 실습
- S3 전송속도 관련 참고자료
- IAM role을 EKS pod별로 설정하기
- EKS 어플리케이션 로그 관리방안 및 운영 노하우
- Airflow 클러스터 구성과정 요약
- Cloudwatch의 Container insights로 EKS 어플리케이션 상태 확인하기
- EMR bootstrap action error 여부를 체크하는 airflow DAG 예시
- 특정 prefix를 제외하고 s3 sync하는 aws cli 명령어 예시
- airflow 시스템 복원을 위한 주요정보 백업 및 복원 스크립트 예시
- Elasticsearch에서 데이터를 백업하고 복원하는 방안
- Kaggle API를 이용한 데이터 다운로드 및 ES에 적재하기
- s3-dist-cp 사용예시
- REST API를 이용한 jupyterhub 컨트롤 예시
- airflow 사용불가시 대체복원 방안
- 쿠버네티스 Pod 내부의 데이터를 영구적으로 저장하고 다른 Pod와 공유하는 방안
- EC2를 이용한 ElasticSearch Cluster 구현하기 - Logstash 설치 및 ES 기본 데이터 템플릿 설정
- EC2에 single node 형태로 airflow(2.1.4) 서버 구현하기
- EC2를 이용한 ElasticSearch Cluster 구현하기 - NFS 설정 및 config 공유
- EC2를 이용한 ElasticSearch Cluster 구현하기 - 코디네이터 노드 중심 클러스터 구성
- Airflow에서 time scheduling 개념
- Airflow 아키텍처 및 구성요소
- EC2 설치형으로 CDH 클러스터 구현하기
- EC2를 이용한 ElasticSearch Cluster 구현하기 - kibana 및 Stack Monitoring 설치
- 쿠버네티스에서 설정정보를 저장하고 활용하는 내부구조
- AWS Managed airflow 소개자료
- 쿠버네티스 서비스 리소스(ELB)에 HTTPS 적용하기
- 컨테이너를 외부로 공개하기 위한 쿠버네티스 리소스
- 쿠버네티스 용어정리 - kubeconfig 파일이란
- AWS EMR config 변경시 절차
- spark에서 coalesce와 repartition의 차이 기본개념
- EC2를 이용한 ElasticSearch Cluster 구현하기 - 클러스터 구성
- EC2 instance Capacity 부족시 대응방안
- yarn 클러스터에서 node 현황 및 app 로그확인 방법
- Spark에서 count 함수와 collect 함수의 차이
- Spark RDD 데이터 출력하기
- Spark RDD Operation 기본개념 요약
- Spark broadcast 기본개념
- EMR 마스터노드의 버퍼&캐시 메모리 관리이슈 해결하기
- YARN 클러스터에서 Spark application 실행 내부구조
- EKS 클러스터에서 컨테이너를 동작시키기 위한 리소스 기본개념
- 스파크 완벽 가이드 책 요약 - 전체적인 Spark 기본개념
- 무신사 쇼핑몰의 머신러닝을 이용한 후기 이미지 자동검수 사례
- 지그재그 쇼핑몰의 로그수집 아키텍처 사례
- EKS 클러스터에 배치 어플리케이션 배포하기
- EKS 클러스터에 프런트앤드 어플리케이션 배포하기
- EMR spark job 실행도중 SPOT 인스턴스로 구성된 TASK 노드를 뺏겨서 job이 fail 되는 현상 해결하기
- EMR scale in시 core node가 감소하지 않는 현상 해결방안
- EMR에 병렬로 spark job 실행 및 컨트롤 하는 예시
- github actions 적용예시 - Get Jupyter Notebook diff with Github Actions
- EKS 클러스터에 API 어플리케이션 배포하기
- Infra as a code(cloudformation)를 이용하여 디비구축하기
- Cloudformation으로 간단하게 EKS cluster 구동하기
- Manual하게 EMR cluster 규모를 조절할 수 있는 Airflow DAG 예시
- 특정 s3 bucket을 통째로 삭제하는 python script 예시
- EMR Security configuration 기본개념
- github repo에 reviewer를 자동 지정하는 방법
- Dataframe을 s3 특정경로에 csv형태로 저장하는 pyspark 함수 예시
- spark 소스코드 개발을 위한 CICD 파이프라인 예시
- Docker&Sagemaker를 이용한 모델학습 아키텍처 예시
- vscode 기본사용법 및 python 가상환경 설정법
- 주피터 노트북 서비스 띄우기
- Spark 3.0.1(EMR 6.2.0) 이슈사례 - cluster scale in 중에 job abort 현상
- ganglia에서 load_one metric 의미
- 특정 IAM User를 제외한 모든 접근을 차단하는 s3 policy 예시
- 일반적인 spark application config 설정방법
- spark-defaults.conf 주요 구성요소
- AWS EMR 노드유형별 기본개념
- 카프카 스트림즈 기초개념
- S3 bucket간 데이터를 정기적으로 copy하는 Airflow DAG 예시
- 운영정책 미준수 EC2를 모니터링해서 Stop 시키도록 자동화하는 예시
- Running중인 EMR Cluster 내 모든 node에 python library 설치하기
- Pyspark Dataframe 간 스키마 일치여부를 체크하는 function 예시
- pyspark으로 RDS MySQL 데이터 load하기
- 크로키닷컴 사례 - AWS Glue를 이용한 Schema Evolution 상황 대응
- EMR 6버전 신규기능 리뷰 - Docker로 Spark 애플리케이션 실행하기
- Airflow Bash operator를 활용한 Spark Custom Operator 구현예시
- Class101 사례 - AWS EMR과 Airflow를 이용한 Batch Data Processing 요약정리
- Spark Adaptive Query Execution (AQE) 기초개념
- EMR에서 spark(yarn) restart 명령어
- 데이터 file을 UFT-8로 encoding하는 python script 예시
- Spark을 이용한 csv to parquet 변환 데이터 정합성 검증 예시
- Spark shuffle 기초개념
- EMR jupyterhub 저장공간 부족시 임시 대응방안
- AWS Lambda에 layer 추가하는 shell script 예시
- spark application에 적용된 config 확인 명령어(pyspark 기준)
- Airflow DataBase 내 기본 테이블 구조
- 특정조건을 만족하는 task만 실행하는 Airflow DAG 예시
- Airflow DAG에서 다른 DAG를 컨트롤하는 예시
- 특정시간까지 Task를 대기하도록하는 Airflow custom operator 예시
- REST API로 Airflow DAG 호출하기
- Airflow SSHOperator 사용예시
- 개발자 관점에서 DB 트랜잭션 이해하기
- Airflow를 이용한 EMR restart 자동화 예시
- 이벤트 브로커와 메세지 브로커 기초개념
- EMR spark job alert 기능 아키텍처 예시
- s3 이벤트 트리거 룰을 컨트롤 하는 lambda 함수 예시
- csv를 parquet로 변환하는 데이터 전처리 파이프라인 예시
- Airflow를 이용한 EMR node scaling 자동화 예시
- Lambda를 이용한 csv to parquet file 자동화 예시
- Airflow&EMR 아키텍처 예시
- EMR cluster에서 spark config 참고자료
- EMR jupyterhub 운영시 livy session 관리방안
- EMR 운영시 정기적인 HDFS 임시파일 삭제방안
- jupyterhub 계정정보가 External DB에 연동된 상태에서 jupyterhub Native Authenticator를 이용해서 신규계정을 추가하는 방법
- AWS에서 Data Lake 구성시 고객정보등 민감한 데이터 처리방안
- DynamoDB to Lambda 데이터 파이프라인 구성시 'Tack timeed out after' error 해결방안
- EMR HDFS 확장방안
- RDS 수동스냅샷 실행시 다운타임 발생여부
- boto3를 이용한 EMR scaling control
- EC2 사용중 EFS mount 상태 끊김현상 해결방법
- ganglia web UI 접근시 접근거부 Error 해결방법
- boto3 API를 이용한 AWS EMR add step 예시
- AWS EMR에서 papermill 실행하기
- kafka 기초개념 - youtube 최범균님 자료
- programmatically add cells to an ipython notebook
- Airflow custom operator 예시
- EMR jupyterhub External DB 설정 테스트 예시
- Spark Partition 개수와 크기 셋팅
- Spark Executor 사이즈와 갯수 셋팅
- Native Authenticator 를 이용한 EMR jupyterhub 계정관리
- Spark core concepts
- Spark application 컴포넌트 및 구동원리
- 티아카데미 Jenkins를 활용한 CICD TIL - CICD & Jenkins 실습
- 티아카데미 Jenkins를 활용한 CICD TIL - CICD & Jenkins 기본개념
- 티아카데미 컨테이너 오케스트레이션 쿠버네티스 살펴보기 TIL - 쿠버네티스 주요기능 실습
- 티아카데미 컨테이너 오케스트레이션 쿠버네티스 살펴보기 TIL - docker & docker-compose 실습
- 티아카데미 아파치 스파크 입문과 활용 TIL - spark 운영과 모니터링
- EMR jupyterhub 개발환경 백업&복원 예시
- 티아카데미 아파치 스파크 입문과 활용 TIL - spark core
- EMR Add step AWS CLI 명령어 예시
- 티아카데미 아파치 스파크 입문과 활용 TIL - spark streaming
- 티아카데미 아파치 스파크 입문과 활용 TIL - spark 개념과 활용
- s3 glacier에 저장된 다수의 object를 s3 standard storage class로 복원하는 방안
- Athena에서 s3 glacier에 저장된 객체에 대한 쿼리 가능여부
- EMR pyspark에서 custom module 사용예시
- EMR master node에 설치된 라이브러리 목록 백업명령어 예시
- Airflow 운영시 서비스 on&off 명령어 스크립트 예시
- Airflow를 이용한 EMR spark batch job 예시
- EMR 마스터노드에서 SBT를 이용한 scala script to jar file 변환 실습
- jupyterhub 개발환경 구성을 위한 EMR bootstrap&add step script 예시
- windows 운영체제의 intellij에 scala spark app 개발환경 구축 및 spark app jar 파일 만들어보기
- windows 운영체제 pycharm에 python 개발환경 구축 및 github 연동하기
- EMR 운영중 트러블슈팅 사례 - jupyterhub notebook 차원에서 spark config 부여하기
- EMR 운영중 트러블슈팅 사례 - jupyterhub notebook 사용중 'IOPub data rate exceeded' Error 해결하기
- SFTP를 이용한 file전송 실습
- EMR 운영중 트러블슈팅 사례 - EMRFS(S3) writing을 위한 임시폴더 접근권한 문제 해결하기
- EMR 운영중 트러블슈팅 사례 - 특정 EBS mount point를 resizing 하기
- EMR jupyterhub 계정관리시 명령어 예시
- putty의 터널링 기능을 이용하여 EMR jupyterhub에 접속하기
- EMR master node에 Static private IP 할당하기
- spark에서 sklearn 모델 처리하기
- Cloud native 서비스를 이용한 Airflow 아키텍처 구현
- spark standalone & zeppelin 구성 실습
- Airflow DAG log를 S3에 저장할 수 있도록 설정하기
- Airflow DAG 구동중 Task 실패시 이메일 알림설정 예시
- Airflow를 이용한 EMR spark job 병렬처리 예시
- Airflow에서 Task 병렬실행을 위한 localexecutor 셋팅
- Celery 기초실습
- Redis 기초실습
- Spark core & RDD 개념 TIL - Youtube 'min zzang' 님 영상자료
- Airflow에서 Task 병렬실행을 위한 celeryexecutor 셋팅
- RabbitMQ 서비스용 계정과 Virtual Host 설정 실습
- Amazon Linux 2에 RabbitMQ 설치하기
- Amazon Linux 2에 MySQL 8 설치하기
- AWS CLI를 이용한 EC2 create & terminate 예시
- ec2에서 hadoop pseudo-distributed 구현 실습
- 티아카데미 Hadoop 입문과 활용 - 기타활용팁 TIL
- 티아카데미 Hadoop 입문과 활용 - MapReduce TIL
- 티아카데미 Hadoop 입문과 활용 - HDFS TIL
- Local pc에 있는 csv 파일을 RDS로 업로드하는 예시
- Airflow를 이용한 EMR spark workflow 구현예시
- python boto3를 이용한 EMR cluster 구동예시
- Airflow 기초실습
- ML model 학습을 위한 kinesis streams의 데이터 처리방안
- Glue를 이용한 S3 to Redshift 데이터 마이그레이션 방안
- Glue를 이용한 RDS to S3 데이터 마이그레이션 python code 예시
- 대용량 DB(RDS) Table to S3 마이그레이션 방안
- PostgreSQL(AWS RDS) to csv file 가능한 python code 예시
- LocalPC의 컴퓨팅 메트릭 데이터를 처리하는 실시간 데이터 파이프라인 구현
- Kafka 활용 실습
- Kafka consumer application 실습
- EC2 간의 통신을 위한 보안그룹 설정 시행착오
- SQL query job 위주의 DAG jobflow를 EMR pyspark code로 구현
- EMR pyspark를 이용한 S3 데이터 처리 예시
- Kafka producer application 실습
- EC2를 이용한 Hadoop Cluster 구축
- nginx reverse proxy를 이용한 private 네트워크의 ES 접근
- Docker container networking 기초개념
- Docker container volume 기초개념
- Docker image build&hub push 용 젠킨스 구현 실습
- AWS Elasticsearch 사용시 Not able to access cluster health and indices 이슈 해결방안
- AWS Elasticsearch를 중심으로 하는 데이터 파이프라인 구축 기초
- Docker Hub와 registry 활용 기초
- Docker compose 기초개념&실습
- 도커 이미지&컨테이너 데이터 백업
- Kafka 설치 및 기본 CLI 활용
- Kafka 기본개념 및 생태계
- HDFS 기초개념
- Hadoop MapReduce 기초개념
- Docker 기초개념
- Facebook 메신저 app을 이용한 Lambda chatbot 구현
- spotify 데이터 유사도 모델링
- Lambda를 이용한 데이터 파이프라이닝 구축
- Athena에서 S3 데이터 테이블 생성&쿼리
- Spotify 음악데이터 추출, 파케이 변환 및 s3 저장
- Python Boto3를 이용한 Spotify 음악데이터 DynamoDB 저장&활용
- Spotify API 음악데이터 저장을 위한 python 기본활용
- Spotify API 음악데이터 저장을 위한 RDS 연결&기본활용
- S3 Intelligent-tiering 요금부과 기준
- Cloudformation EMR 템플릿 예시
- Local port forwarding을 이용한 Private 네트워크의 자원접근
- Crontab을 이용한 s3 sync 작업 자동화
- Lambda를 이용한 AWS 자원관리 예시
- Fluentd를 이용한 EMR 애코 어플리케이션 로그수집 구현
- AWS CLI를 이용한 EMR 클러스터 구동예시
- Lambda 함수를 이용한 S3 bucket간 실시간 data sync 구현
- Dynamic port forwarding을 이용한 EMR 웹 인터페이스 접근
- Spotify API를 이용한 인증 및 음악데이터 조회
- EMR 6.0 Hue(oozie workflow editor) 기능 애러 테크노트
- HBase 기초개념
- AWS RDS Subnet Group 변경 시 트러블슈팅
- 타계정간 s3 Replication 기능 테스트
- 실시간 데이터 처리를 위한 분산컴퓨팅 개론
- S3 storage class 적용방안
- CDH 개론
- 주키퍼 기초개념
- S3 Sync 기능을 이용한 마이그레이션 테스트
- CDH HBase 마이그레이션 테크노트
- AWS Sagemaker를 이용하여 치킨이미지를 분류할 수 있는 CNN(MobileNet) 구현 및 배포
- AWS DataSync 기초개념 및 핸즈온
- AWS Cross-account 기능을 이용한 S3 버킷권한 타계정 이전
- AWS Lambda를 이용한 EMR spark batch job 자동화
- AWS Glue 개요 및 활용방안
- 쿠버네티스 개요
- Spark 구동원리 이해를 위한 YARN 기본개념
- Python boto3를 이용한 AWS 리소스 컨트롤 - Cloudwatch metric check
- 자체서버부터 컨테이너까지 쿠버네티스 등장배경
- Python boto3를 이용한 AWS 리소스 컨트롤 - s3현황 확인
- Python boto3를 이용한 AWS 리소스 컨트롤 - EC2현황 확인
- Python boto3를 이용한 AWS 리소스 컨트롤-세션등록 및 함수출력하기
- Python boto3를 이용한 AWS 리소스 컨트롤-클라이언트 연결 및 EC2 생성
- docker image 빌드환경 구현실습
- docker image 이해 및 배포실습
- Docker Container 기초실습
- Docker 개요
- AWS EMR의 Hive를 이용한 Google 도서 Ngram분석 실습
- AWS EMR 고급활용기법
- Amazon EMR Deep Dive 필기노트
- AWS EKS 위에서 Jupyter Hub 분석 환경 구현하기
- Build a Log Analytics Solution By AWS services
- Build a Serverless Real-Time Data Processing App By AWS services
- AWS ECR, ECS 등을 이용한 인프라 구현 및 코드배포 자동화
- Container management tool 활용 및 Container monitoring
- Docker Swarm과 AWS ECR을 이용한 Container orchestration 기초개념 및 실습
- AWS SCT를 이용한 DB 스키마 변환작업 실습
- AWS Glue를 중심으로 한 데이터 ETL 아키텍처 구현
- AWS 개인VPC 디자인 및 구현
- Docker 기본활용 실습
- jenkins를 이용한 자동화 배포 및 컨테이터 환경 구성 실습
- Hadoop 클러스터 구축 기초개념
- '그런 REST API로 괜찮은가' 학습노트
- AWS를 이용한 간이 서버인프라(웹서버+WAS+DB) 구축
- Hadoop HDFS 및 MapReduce 기초개념
- AWS ELB, Auto scaling group을 이용한 다중 웹서버 환경 구축 실습
- AWS를 이용한 실시간 채팅 자음퀴즈 앱서비스 구현
- 우분투 환경에서 도커 설치 및 컨테이너 구동실습
- 텍스트 데이터 토픽 분류 서비스를 제공하는 웹서버 구현결과
- 스케쥴러를 이용한 네이버 실시간 검색어 순위 데이터수집 AWS 서버 구현결과
- '그들이 AWS 위에서 데이터 파이프라인을 운영하는법' 학습노트
- What is a Data Engineer and What Do They Do in Data Science 칼럼요약
- 트위터 스트리밍 데이터 실시간 감성분석 시스템 구현결과
- Dropout과 ReLU Activation 기초개념
- 얼굴이미지 인식실습으로 이해하는 CNN
- 나무위키 확률론적 언어모형 구현실습으로 이해하는 RNN
- 지속가능한 데이터 분석을 위한 AWS 환경구축 및 활용 실습
- word2vec 기초개념 및 구현실습
- MLflow 기초개념 및 사용실습
- Neural Network 작동원리 이해
- 자주 사용하는 머신러닝 기법 이해
- 파이썬 프로그래밍으로 이해하는 선형회귀 원리
- AWS Sagemaker 기초개념 및 실습
- Airflow 기초개념 및 구현실습
- GCP 서비스 이해 및 실습
- 트위터 스트림 실시간 대시보드 구현실습
- 최신 데이터시각화 툴즈 개요
- Elasticsearch 기초개념 및 실습
- AWS DMS 기초개념 및 실습
- 카프카 기초개념 및 트위터 스트림 수집 실습
- 데이터 파이프라인 기초개념 및 실습
- Apache Spark 클러스터링 및 스트리밍 구현실습
- Apache Spark 기초실습 step 2)
- AWS Data flow infrastructure 기초개념
- Apache Spark 기초실습 step 1)
- Spark 기초개념
- 대용량 데이터 처리기술 기초개념
- AWS RDS 기초개념
- 데이터 엔지니어링에서 프로그래밍 언어의 활용
- AWS EC2 인스턴스 및 S3 기초개념
- AWS 클라우드 기초개념
- 트위터 뉴스기사 크롤링 및 시각화
- 'scrapy'를 이용한 프리미어리거 개인통산기록 웹크롤링
- 네이버 스포츠 뉴스기사 크롤링 및 카테고리별 분류모델 구현
선형회귀분석
- 다중공선성 대처방안
- 피처 정규화는 필수인가
- 프로야구팀 시즌승률 예측을 위한 선형회귀모델 구현결과
- 다중공선성 기초개념
- 정규화 선형회귀 기초개념
- 분산분석과 모형성능 기초개념
- 확률론적 선형회귀모형 기초개념
- 회귀분석의 기하학적 의미 기초개념
- 회귀분석 모델의 진단 기초개념
- 부분회귀 기초개념
- 범주형 데이터처리 기초개념
- 결정론적 선형회귀분석 기초개념
- 기저함수와 다항회귀 기초개념
- 교차검증 기초개념
- PHR 서비스를 위한 암환자의 건강관리행태 및 삶의 질 영향 연구
- 선형회귀모형 구현실습2
- 선형회귀모형 구현실습
참여연구
추천시스템
수학기초
- 머신러닝에서 가설검정을 어떻게 활용하는가
- 카이제곱검정 기초개념
- 상관분석 기초개념
- 일원분산분석 기초개념
- 쌍체 표본 t검정 기초개념
- 독립 표본 t검정 기초개념
- 단일 표본 t검정 기초개념
- 통계적 가설검정과 p-value 기초개념
- 좌표의 변환 기초개념
- 선형대수와 해석기하 기초개념
- 선형 연립방정식과 역행렬 기초개념
- 행렬의 성질 기초개념
- 공분산과 상관계수 기초개념
- Micro average와 Macro average 기초개념
- Gradient Descent 기초개념
- 머신러닝 이해를 위한 엔트로피 기초개념
- Testing과 P-value 기초개념
- Maximum Likelihood Estimation 기초개념
- 그레디언트 부스트 이해를 위한 변분법 기초개념
- scipy, sympy를 이용한 미적분 기초학습
- 추천알고리즘 이해를 위한 유사도 기초개념 및 구현실습
네트워크 추론방법
자료구조 알고리즘
- 해시테이블 기본개념
- 이진탐색 기본개념
- Linked list 기본개념
- 병합정렬 기본개념
- 동적계획법과 분할정복 기본개념
- quick sort 기본개념
- 삽입정렬 기본개념
- 선택정렬 기본개념
- Bubble sort 기본개념
- 코딩테스트 할때 체크리스트
- 일일코테 - 프로그래머스 '멀쩡한 사각형'
- 일일코테 - 프로그래머스 '124 나라의 숫자'
- 일일코테 - 프로그래머스 '문자열 압축'
- 일일코테 - 프로그래머스 '1차 뉴스 클러스터링'
- 일일코테 - 프로그래머스 '오픈채팅방'
- 일일코테 - 프로그래머스 '짝지어 제거하기'
- 일일코테 - 프로그래머스 '더 맵게'
- 일일코테 - 프로그래머스 '입국심사'
- '이것이 취업을 위한 코딩 테스트다' 서적 학습노트
- 알고리즘 연습방법
- heap 기초개념 및 구현실습 - 패캠 알고리즘&기술면접 인강
- Hash Collision 해결을 위한 알고리즘 기초개념
- MST(최소비용 신장트리) 기초개념 및 구현실습
- 최단경로 알고리즘 기초개념 및 구현실습
- graph 기초개념 및 구현실습
- heap 기초개념 및 구현실습 - 양태환 강사님 강의
- Sorting 알고리즘 기초개념 및 구현실습
- Red black tree 기초개념 및 구현실습
- B-tree 기초개념
- BST 기초개념 및 구현실습
- Binary tree 기초개념 및 구현실습
- Balanced binary tree 기초개념
- 후위표기법 계산기 기초개념 및 구현실습
- maze 알고리즘 기초개념 및 구현실습
- Single Linked List 기초개념 및 구현실습
- pseudo_list 구현실습
- 선형탐색과 이진탐색 기초개념 및 구현실습
- Dummy Double Linked List 기초개념 및 구현실습
- 자료구조 개요 및 기본자료구조
- Recursive call 기본개념
- 해시테이블 기초개념
- 탐욕알고리즘 기초개념
- 다익스트라 알고리즘 기초개념
- 너비우선탐색 기초개념
terraform
- remote provisioner 사용실습 2-2
- remote provisioner 사용실습 2-1
- local provisioner 사용 실습
- 프로비저닝을 이용한 EC2 인스턴스 생성 실습 3-3
- 프로비저닝을 이용한 EC2 인스턴스 생성 실습 3-2
- 프로비저닝을 이용한 EC2 인스턴스 생성 실습 3-1
- 프로비저닝을 위한 테라폼 환경설정 실습내용 정리
PCA
Computer Science
감성분석
클러스터링
데이터전처리
- 변수분포문제 - 피쳐간 스케일 차이 해결하기
- 변수분포문제 - 변수치우침 문제 해결하기
- 변수분포문제 - 피쳐간에 상관성이 높을때
- 데이터 전처리시 이상치 제거하기
- 변수분포문제 - 피쳐와 라벨간 약한 관계 또는 비선형 관계일때
- 데이터 전처리시 범주형 데이터 처리 방안
- 데이터 결측문제 - 결측치 예측모델을 활용해서 해결하는 경우
- 데이터 결측문제 - 대표값 또는 근처값(시계열변수에만 한정)으로 대체해서 해결하는 경우
- 데이터 결측문제 - 삭제해서 해결하는 경우
- 데이터 파편화 문제 - 데이터 요약이 필요한 경우
- 데이터 파편화 문제 - 거리 기반 병합이 필요한 경우
- 데이터 파편화 문제 - 포맷이 다른 키 변수가 있는 경우
- 데이터 파편화 문제 - 명시적인 키변수가 있는 경우
- 데이터 파편화 문제 - 데이터 파일이 분산 저장되어 있는 경우
- 머신러닝에서 가설검정을 어떻게 활용하는가
- 카이제곱검정 기초개념
- 상관분석 기초개념
- 일원분산분석 기초개념
- 쌍체 표본 t검정 기초개념
- 독립 표본 t검정 기초개념
- 단일 표본 t검정 기초개념
- 통계적 가설검정과 p-value 기초개념
- 머신러닝 데이터 전처리시 기초통계분석 활용방법
- Exploratory Data Analysis 란
- 데이터 전처리의 중요성
- 차원의 저주 문제 2-2
- 차원의 저주 문제 2-1
- 결측치 및 클래스 불균형 문제
- 데이터의 파편화 및 분포문제
- 데이터 탐색과 전처리를 위한 주요 파이썬 모듈
- 데이터 품질문제와 테이터탐색 및 전처리 가이드라인
시계열분석
- Autoregressive 모형 기초개념
- Moving Average 모형 기초개념
- General linear process model 기초개념
- 추세와 계절성 기초개념
- white noise와 random walk 기초개념
- 정상확률과정과 비정상확률과정 기초개념
- 시계열 데이터와 확률과정 기초개념
토이프로젝트
- LocalPC의 컴퓨팅 메트릭 데이터를 처리하는 실시간 데이터 파이프라인 구현
- 텍스트 데이터 토픽 분류 서비스를 제공하는 웹서버 구현결과
- 스케쥴러를 이용한 네이버 실시간 검색어 순위 데이터수집 AWS 서버 구현결과
- 프로야구팀 시즌승률 예측을 위한 선형회귀모델 구현결과
- 트위터 스트리밍 데이터 실시간 감성분석 시스템 구현결과