Post

[데이터 시각화 교과서] 17-19장

⟪Fundamentals of Data Visualization⟫, Claus O. Wilke

[데이터 시각화 교과서] 17-19장

Fundamentals of Data Visualization

17 The principle of proportional ink


  • 잉크 양 비례의 원칙(principle of proportional ink): 색조를 넣은 영역이 수치 값을 나타낼 때, 색조가 들어간 영역의 면적은 해당 값과 정비례 해야 한다

17.1 Visualizations along linear axes

  • 선형 축을 따라 수량을 나타내는 시각화 방식
  • 인간의 눈은 막대 끝점의 위치보다는 막대 높이를 가장 주요한 정량 정보라고 판단
  • 선형 스케일에 막대 그래프를 그릴 땐 항상 0에서 출발
  • 주가와 같은 시계열을 시각화할 때
  • 어떤 차이를 보여주려고 하는지를 명확하게 정하기만 하면 그에 맞는 효과적인 방법 사용
    • 변동폭 시각화
    • 주가 변동을 일시적인 고점으로부터의 거리 차이로 시각화

17.2 Visualizations along logarithmic axes

  • 시각화할 데이터가 수량인지, 비율인지부터 생각
  • 실무에서 로그 스케일은 특별히 비율을 시각화해야 하는 경우보다는 도표에 나타낼 숫자의 자릿수가 매우 다양할 때 자주 쓰임
  • 로그 스케일의 경우, 막대를 무작정 0에서부터 그릴 수 없다는 문제가 존재
    • 스케일을 따라 해당 위치에 점을 찍어서 바로 옆에 레이블을 다는 등.
      • 점과 레이블 사이의 거리가 값의 크기처럼 보이지 않는 이유는, 레이블을 y축이 아니라 점 바로 옆에 표기한 덕분
  • 로그 스케일에 그리는 막대는 비율을 비교할 때 쓰이며, 기본 중심점인 1을 기준으로 출발

17.3 Direct area visualizations

  • 위치를 지정하지 않고, 면적을 우선적이고 직접적인 요소로 활용해 데이터 값을 표시하는 경우
  • 파이 차트
    • 데이터 값을 각도로, 그 각도는 원형 축 기준의 위치로 표현하지만 사실상 인식하는 시각적 요소는 파이조각의 각도가 아닌 면적
  • 인간의 인지 기능은 거리부터 판단 후 면적을 판단. 데이터 값을 거리 요소로만 나타낸 경우, 가로와 세로 길이로 계산되는 면적을 통해 데이 값을 나타낼 때보다 정보를 더 정확하게 인지
  • 트리맵

18 Handling overlapping points


  • 오버플로팅: 점 여러 개를 같은 좌표에 겹쳐 찍는 현상. 방대한 데이터셋으로 인해 겹쳐 찍히는 데이터 포인트가 많거나, 데이터셋이 작더라도 데이터 값이 부정확하거나 반올림되어서 수치가 똑같아진 관측 값이 많아질 때

18.1 Partial transparency and jittering

  • 데이터 포인트 수는 적당하지만 반올림한 값이 많은 경우
    • 반투명 색 활용
    • jittering 기법: x축이나 y축 방향, 또는 두 축의 방향으로 모두 점을 조금씩 빗겨 배치하는 것

18.2 2D histograms

  • 도표에 표시할 점이 아주 많은 경우
    • 2차원 히스토그램
      • 데이터의 구간을 2차원에서 설정

18.3 Contour lines

  • 데이터 포인트들의 구간을 설정하는 대신, 도표 전체의 점 밀도를 추정하고 그에 따라 등고선을 그림
    • 등고선을 따라 나뉜 영역들에 중앙으로 갈 수록 색을 진하게 함
    • 등고선을 각기 다른 색으로 그림
    • 데이터 값이 서로 심하게 겹칠 경우 등급별로 도표를 따로 만들고 등고선을 그리는 등

19 Commno pitfalls of color use


19.1 Encoding too much or irrelevant information

  • 너무 많은 범주에 일일이 색을 부여하지 말 것
    • 정성적 색상 스케일이 효과적인 범주의 개수는 3-5개
      • 분류대로 색을 입히는 대신 레이블을 다는 등
  • 너무 강하고 튀게 사용하지 말 것

    19.2 Using non-monotonic color scales to encode data values

  • 순차적 색상 스케일을 디자인하기 위한 조건 2가지
    • 색상은 데이터 값의 크고 작음을 명확하게 알려줄 것
    • 색상의 차이는 데이터 값의 차이에 부합해 시각화할 것

19.3 Not designing for color-vision deficiency

  • 적색맹/적색약, 녹색맹/녹색약, 청색맹/청색약
    • 분홍-연두 스케일이 어떤 종류의 색각 이상자에게든 색이 구별되어 보임
  • 모든 색각 이상자가 구별할 수 있는 정성적 색상 모음
  • 색을 넣는 그래픽의 요소의 크기나 면적이 클수록 알아보기 쉬움. 색각 이상자에게는 그 차이가 더 크게 느껴짐
This post is licensed under CC BY 4.0 by the author.