최신 데이터시각화 툴즈 개요

2019-04-14

Data_Engineering_TIL_(20190413)

study program : https://www.fastcampus.co.kr/extension_des

[학습목표]

  • 데이터시각화 중요성 이해

  • 현재 많이 쓰이고 있는 시각화툴 이해

[학습기록]

  • 데이터의 표현과 활용

1) 데이터를 저장만 혹은 분석만 해서는 가치가 없고 분석한 결과를 기반으로 회사나 조직이 의사결정을하고 어떤행동을 취해야만 가치가 생긴다.

2) 그래서 데이터를 시각화하여 리포트로 만들어 팀 혹은 경영진에게 공유하는 도구의 필요성이 자연스럽게 제기되었다.

3) 또는 데이터를 시각화하여 머신러닝, 딥러닝을 통해 특정한 작업을 하는 모델을 구현할때 더 깊이있는 분석을 하는데 있어서 활용이 가능하다.

  • 어떤 포지션이던지 데이터 시각화는 데이터 분야에서 항상 중요한 주제 중 하나다.

1

  • 데이터 시각화 개요

1) 숫자나 테이블 형태로 존재하는 데이터를 여러가지 종류의 차트, 대시보드 등으로 시각화

2) 시각화 하는 단계에서 새로운 인사이트를 발견하는 경우도 많음

3) 이렇게 시각화한 데이터를 정리하고 팀과 공유

4) 시장에 수많은 제품이 존재한다.

5) 웹 기반 제품이 공유하기 쉽다는 점에서 많이 쓰이고 있다.

6) 시각화 작업중에 사용자가 직접 프로그래밍을해서 만들어야 하는 시점이 올때도 있음

현업에서 많이 쓰이는 시각화 툴

  • Tableau

1) 단순히 데이터 시각화 도구라고 하기에는 성능이 좋아서 EDA까지 가능한 툴이다.

2) 단점은 너무 비싸다(인당 연간 약 100만원 정도)

3) 데이터 로드, column, row로 그룹, 강력한 시각화

4) 비슷한 제품이 구글의 데이터스튜디오, SKT의 metatrone 등이 있다. 하지만 타블로에 비해서 퍼포먼스가 떨어지는 편이다.

2

  • Redash, ChartIO, Periscope Data, Holistics

1) 데이터베이스에 연결, 시각화, 공유

2) 여러가지 유용한 기능이 많으며, 대부분 유료

3

  • Metabase

1) Redash 류와 동일

2) 오픈소스, 설치형

4

  • D3.js, NVD3

1) Javascript 시각화 라이브러리, 활용도가 무궁무진함

2) 오픈소스

5

  • Crossfilter, dc.js

1) Dimensional Charting으로 interactive한 분석이 가능

2) 오픈소스

3) 강력한 분석 및 차팅이 웹에서 가능

6

  • Dash (by Plotly)

1) Javascript는 작성하기 괴로운 단점이 있었는데 그런 문제점을 극복하고자 나온 툴

2) 분석용 웹앱을 파이썬으로 프로그래밍하는 것이 특징

3) 파이썬으로 프로그래밍을 하는 것이 특징이기 때문에 내부는 역시 flask를 내부에서 쓰고 있다.

7

  • R

1) 통계용 프로그래밍 언어이자 오픈소스 소프트웨어 플랫폼

2) SAS, SPSS 같은 통계 프로그램의 대체품

3) 여러 사람의 기여로 머신러닝 등 시대의 요구에 부합하는 기능들을 간편하게 사용할 수 있어 인기

4) Spark 같은 도구와 연동하는 SparklyR, SparkR 같은 도구들도 나오는 추세

5) Python언어도 maplotlib 패키지 같은 좋은 시각화 도구도 있다.

  • Kibana (Elastic)

1) Elastic Search를 사용하고 있을때, 데이터를 visualization 가능하다.

2) 현업에서는 ELK라고 해서 일라스틱서치, 로그스테시, 키바나 이 세개를 조합해서 많이 쓰고 있다.

8

  • DECK.GL, Kepler.Gl

1) WebGL을 이용한 3D Visualization 툴

2) Dimension이 추가된다는 것은 실제 데이터의 흐름을 현실적으로 표현했다는 것에서 상당히 유용하다고 할 수 있다.

9