[데이터 시각화 교과서] 17-19장
⟪Fundamentals of Data Visualization⟫, Claus O. Wilke
[데이터 시각화 교과서] 17-19장
Fundamentals of Data Visualization
17 The principle of proportional ink
- 잉크 양 비례의 원칙(principle of proportional ink): 색조를 넣은 영역이 수치 값을 나타낼 때, 색조가 들어간 영역의 면적은 해당 값과 정비례 해야 한다
17.1 Visualizations along linear axes
- 선형 축을 따라 수량을 나타내는 시각화 방식
- 인간의 눈은 막대 끝점의 위치보다는 막대 높이를 가장 주요한 정량 정보라고 판단
- 선형 스케일에 막대 그래프를 그릴 땐 항상 0에서 출발
- 주가와 같은 시계열을 시각화할 때
- 어떤 차이를 보여주려고 하는지를 명확하게 정하기만 하면 그에 맞는 효과적인 방법 사용
- 변동폭 시각화
- 주가 변동을 일시적인 고점으로부터의 거리 차이로 시각화
17.2 Visualizations along logarithmic axes
- 시각화할 데이터가 수량인지, 비율인지부터 생각
- 실무에서 로그 스케일은 특별히 비율을 시각화해야 하는 경우보다는 도표에 나타낼 숫자의 자릿수가 매우 다양할 때 자주 쓰임
- 로그 스케일의 경우, 막대를 무작정 0에서부터 그릴 수 없다는 문제가 존재
- 스케일을 따라 해당 위치에 점을 찍어서 바로 옆에 레이블을 다는 등.
- 점과 레이블 사이의 거리가 값의 크기처럼 보이지 않는 이유는, 레이블을 y축이 아니라 점 바로 옆에 표기한 덕분
- 스케일을 따라 해당 위치에 점을 찍어서 바로 옆에 레이블을 다는 등.
- 로그 스케일에 그리는 막대는 비율을 비교할 때 쓰이며, 기본 중심점인 1을 기준으로 출발
17.3 Direct area visualizations
- 위치를 지정하지 않고, 면적을 우선적이고 직접적인 요소로 활용해 데이터 값을 표시하는 경우
- 파이 차트
- 데이터 값을 각도로, 그 각도는 원형 축 기준의 위치로 표현하지만 사실상 인식하는 시각적 요소는 파이조각의 각도가 아닌 면적
- 인간의 인지 기능은 거리부터 판단 후 면적을 판단. 데이터 값을 거리 요소로만 나타낸 경우, 가로와 세로 길이로 계산되는 면적을 통해 데이 값을 나타낼 때보다 정보를 더 정확하게 인지
- 트리맵
18 Handling overlapping points
- 오버플로팅: 점 여러 개를 같은 좌표에 겹쳐 찍는 현상. 방대한 데이터셋으로 인해 겹쳐 찍히는 데이터 포인트가 많거나, 데이터셋이 작더라도 데이터 값이 부정확하거나 반올림되어서 수치가 똑같아진 관측 값이 많아질 때
18.1 Partial transparency and jittering
- 데이터 포인트 수는 적당하지만 반올림한 값이 많은 경우
- 반투명 색 활용
- jittering 기법: x축이나 y축 방향, 또는 두 축의 방향으로 모두 점을 조금씩 빗겨 배치하는 것
18.2 2D histograms
- 도표에 표시할 점이 아주 많은 경우
- 2차원 히스토그램
- 데이터의 구간을 2차원에서 설정
- 2차원 히스토그램
18.3 Contour lines
- 데이터 포인트들의 구간을 설정하는 대신, 도표 전체의 점 밀도를 추정하고 그에 따라 등고선을 그림
- 등고선을 따라 나뉜 영역들에 중앙으로 갈 수록 색을 진하게 함
- 등고선을 각기 다른 색으로 그림
- 데이터 값이 서로 심하게 겹칠 경우 등급별로 도표를 따로 만들고 등고선을 그리는 등
19 Commno pitfalls of color use
19.1 Encoding too much or irrelevant information
- 너무 많은 범주에 일일이 색을 부여하지 말 것
- 정성적 색상 스케일이 효과적인 범주의 개수는 3-5개
- 분류대로 색을 입히는 대신 레이블을 다는 등
- 정성적 색상 스케일이 효과적인 범주의 개수는 3-5개
- 너무 강하고 튀게 사용하지 말 것
19.2 Using non-monotonic color scales to encode data values
- 순차적 색상 스케일을 디자인하기 위한 조건 2가지
- 색상은 데이터 값의 크고 작음을 명확하게 알려줄 것
- 색상의 차이는 데이터 값의 차이에 부합해 시각화할 것
19.3 Not designing for color-vision deficiency
- 적색맹/적색약, 녹색맹/녹색약, 청색맹/청색약
- 분홍-연두 스케일이 어떤 종류의 색각 이상자에게든 색이 구별되어 보임
- 모든 색각 이상자가 구별할 수 있는 정성적 색상 모음
- 색을 넣는 그래픽의 요소의 크기나 면적이 클수록 알아보기 쉬움. 색각 이상자에게는 그 차이가 더 크게 느껴짐
This post is licensed under CC BY 4.0 by the author.