데이터 시각화란?
데이터 시각화란 데이터를 그래픽 요소로 매핑하여 시각적으로 표현하는 것.
시각화를 위해서 다양한 과제를 설정할 수 있다.
- 목적: 왜 데이터를 시각화하는가?
- 독자: 내 시각화를 누가 볼 것인가?
- 데이터: 어떤 데이터를 시각화할 것인가?
- 스토리: 어떤 흐름으로 시각화할 것인가?
- 방법: 어떤 방법을 사용할 것인가?
- 디자인: 예쁘게 잘 꾸몄는가!
이 다양한 과제를 생각하면서 좋은 시각화를 하는 방법을 알아보자.
시각화의 요소
당연하지만, 데이터가 하나의 요소이고, 시각화가 하나의 요소이다.
데이터
무슨 데이터를 시각화해야할까?
전체 데이터셋을 보여주는 방법이 있는가 하면, 국소적인 데이터를 보여줘야 하는 경우도 있을 것이다.
또한 데이터의 종류도 매우 다양하다.
- 정형 데이터
흔히 csv 파일로 제공된다. 단순하게 표로 만들어진, 분류와 항목으로 이뤄진 데이터.
이런 데이터에서는 통계를 내거나 각 항목간의 관계를 표현하는 것이 유효하다.
- 시계열 데이터
영어로는 time-series.
기온이나 주가처럼 시간에 따라 흐름이 축적되는 데이터. 비정형인 경우도 존재한다.
이런 데이터에서는 추세, 주기성 등을 살필 수 있다.
- 지리 데이터
말 글대로 지리 데이터이다.
이런 데이터는 지도 자체와 보고자 하는 정보의 매칭, 혹은 단순한 지도의 단순화같은 표현이 중요하다.
- 관계형(네트워크) 데이터
흔히 그래프라고도 불리는 데이터. 객체들의 관계를 가진 데이터로, 노드와 간선을 가진다.
이런 데이터는 위처럼 표현하면 좋다.
객체와 관계의 가중치를 잘 표현하는 것이 중요하고, 또 배치에 관한 mapping이 중요하다
- 계층적 데이터
계층이 있는 연속적 데이터. 포함 관계가 확실하게 있는 데이터를 보통 말한다.
단순하게 트리를 생각해보면될 것이다.
- 다양한 비정형 데이터
말그대로 기타 데이터들.
단순하게 데이터들의 예시를 훑어 봤는데 대표적으로 분류하는 방식은 다음과 같다.
수치형은 수로 나오는 것들, 범주는 나오는 값들이 수가 아닌 다른 데이터로 나오는 것들. 그리고 수치형에서는 연속형과 이산형으로 나뉜다. 범주형에서는 순서가 있는 순서형과 명목형으로 나뉜다.
각 종류에 따라 좋은 시각화 방향이 있으니 데이터의 종류를 꼭 고려하는 것이 좋다.
시각화
마크: 이미지에서 가장 기본적인 시각 단위이다. 점,선,면으로 이뤄지는 것이며, 쉽게 생각하자면 좌표 평면 상에 그래프를 그릴 때 그 그래프가 마크라고 생각하면 된다.
채널: 그러한 마크에서 변경될 수 있는, 그래서 우리가 변경하는 요소 내지 속성을 채널이라 부른다. 마크의 위치를 어떻게 잡는지, 색은 어떻게 하고 굵기는 어떻게 할지, 이런 것들이 채널의 요소라고 보면 되시겠다.
이때 주의깊게 봐야하는 것이 있는데 바로 전주의적 속성Pre-attentive Atrribute이다.
이것은 우리가 딱히 주의를 시키지 않아도 보는 사람에게 쉽게 인지되는 요소를 말한다.
이것이 채널을 이용하며 고려해야 할 속성이다. 이를 잘 활용하면 우리의 시각자료가 보는 사람에게 시각적 분리를 일으키면서 효과적으로 전달될 것이다.
대신 한꺼번에 쓰면 오히려 주의가 분산되면서 인지하기 어려워지기에 주의가 필요하다.