본문 바로가기

데이터 분석/데이터 분석 부트캠프

[패스트캠퍼스] 데이터 분석 부트캠프 8기 9주차 학습일지

반응형

23.04.17 ~ 23. 04.20 동안 부트캠프에서 배웠던 내용을 정리한 학습일지입니다.

9주차에는 Tableau를 이용한 시각화 방법을 배웠습니다.

 

사실 예전에 Tableau에서 진행하는 신병훈련소에 참여한 적 있는데,

그 당시 혼자 처음 배워보는 툴을 제공된 강의만 들으면서 하는 게 어려워서 수강증만 겨우겨우 받고 끝났었는데요

그래서 그런지 부트캠프 참여 할 때부터 굉장히 기대하고 있던 수업이었습니다 😆  

 

짧은 시간 동안 강의가 진행되는 것은 아쉽지만,

강사님께서 엄청 친절하셔서 진도를 나가고 이해를 하는데 어려움이 없어 재미있게 수업 듣고 있습니다!

 

그런데 태블로 같은 경우는 정리를 어떻게 해야 할지 조금 막막한 면이 없지 않아 있는 거 같아요

태블로 기본 구조가 drag and drop이라 캡처를 진행하는데 한계가 있어 최대한 글로 표현하기 쉽게 정리해 봤습니다.

 

태블로 노션 링크: https://solar-geology-c0d.notion.site/fbc04571583c4054aae77faa8a1400b6


부트캠프 9주차 - 2023.04.17 ~ 2023.04.20  "Tableau를 활용한 시각화 실전"

 

 

 

 

1. 태블로에서 사용되는 개념

 

1.1차원과 측정값

  • 측정값: 우리의 관심을 받는 대상
    • 학급 학생들의 키를 분석한다 → 측정값: 키
    • 회사 매출액 검토 → 측정값: 매출액
    • 측정값은 반드시 숫자인 것은 아님

 

  • 차원: 우리가 관심을 가지고 있는 측정값을 어떻게 잘라서 볼 것인가
    • SQL에서 group by 개념
    • 성별 기준으로 키를 분석한다 → 차원: 성별
    • 광역지자체 분류에 따라 SNS 언급량을 살펴본다 → 차원: 광역지자체

 

1.2 연속형과 불연속형

  • 연속형: 쭉 이어진 것
  • 불연속형: 잘려서 구분되는 것

 

1.3 Level of Detail

  • 태블로는 집계한다
  • VLOD(View Level Of Detail) : 화면이 잘린 수준
    • 화면의 디테일이 어디까지 내려와 있는지
  • 차원과 측정값 중 오직 차원만 화면의 LOD를 결정한다

 

1.4 네 가지 계산

  • 행 수준 계산 : ex) sales + profit
  • 집계 계산 : ex) sum(sales) + sum(profit)
    • 더하기 계산에선 행 수준 계산과 집계 계산의 차이가 없지만, 곱하기 나누기 계산에서는 계산 순서 때문에 값이 달라짐
    • 집계함수를 쓰는 경우가 컴퓨터 부하가 덜 가는 방법이므로 집계 계산 추가
  • 테이블 계산(퀵 테이블 계산): 반드시 집계 계산 이후에 발생
  • LOD 표현식

 

1.5 시트, 대시보드, 스토리

  • 시트 : 차트를 그리는 곳
  • 대시보드
    • 바둑판식 vs 부동(장단점을 중심으로)
      • 비즈니스 대시보드에서 부동 방식을 추천하지는 x → 바둑판 추천
      • 바둑판식 : 공간을 채워가는 개념
    • 주요 개체 (컨테이너를 중심으로)
    • 필터 액션 설정
  • 스토리

 

 

 


 

2. 기본 차트 생성

 

2.1 바 차트

1) 초기 버전

2) 수정 버전

 

  • Product category : 열에 대한 필드 레이블 숨기기 진행
  • y축: 머리글 표시 삭제
  • 배경 격자 삭제
    • 방법: 마우스 우클릭 → 서식 → 왼쪽 탭에서 라인 서식 선택 → 격자선 없음
  • 기준선 설정
    • 방법: 마우스 우클릭 → 서식 → 왼쪽 탭에서 라인 서식 선택 → 0 기준선
    • 기준선을 지정해 주는 이유: 기준선이 없는 경우 바 차트가 바닥에서 붕 떠 보이는 느낌이 들 수 있음

 

 

 

 

2.2 라인차트

1) 초기버전

 

  • 날짜 데이터 형식은 연속형, 불연속형에 따라 그려지는 차원 형식이 다름
  • 현재 라인차트는 불연속형의 날짜 데이터 (파란색 : 불연속, 초록색: 연속)
  • 열 선반에 order date 필드를 올리면, 년 앞에 + 버튼 존재
    • +를 누르면 분기 → 월 → 일 → 시간 순으로 나뉨
  • 목표 라인차트는 연월별 매출현황이므로 분기 drop 진행

 

 

2) 수정 버전

  • 레이블 지정
    • 모든 지점에 텍스트 값이 찍히면 시각적으로 좋지 못하기 때문에 시작/끝 점만 텍스트 값이 나오게 설정
    • 방법: 마크탭 → 레이블 → 레이블 마크 : 라인 끝

 

 

2.3 영역 차트

  • 라인차트와 영역차트 차이점
    • 라인차트 : value가 동일한 value로 표시 (기준선 동일)
    • 영역차트: value가 누적되어 표시 (기준선 동일 x)
      • 누적을 제외하고 싶은 경우, 상단의 분석 탭 → 마크 누적: 해제

 

 

 

2.4 비율차트(1) - 파이 차트

 

카테고리별 매출 현황을 파이차트로 표시

<진행과정>

  • sales , product category 동시 선택 → 표현방식: 파이차트
  • 레이블: product category, sales, sales
    • sales1 : 마우스 우클릭 → 퀵 테이블 계산 : 구성 비율
    • sales2: 기존 값 표시 역할
  • 레이블 디테일 수정법
    • 마크 탭: 레이블 마우스 우클릭 → 텍스트 … 선택

 

 

<파이차트의 단점>

  • 파이차트는 각도를 통해 비율을 비교하는 방법
  • 그러나 각도를 통해 값을 비교하는 것은 시각적으로 효과적이지는 않음.
  • 이를 대체할 수 있는 방법으로 비율 바차트가 존재

 

 

2.5 비율차트(2) - 비율 바 차트

 

  • 기본 바 차트 생성 후, 퀵 테이블 계산 : 구성 비율을 통해 비율 바 차트 생성 가능
  • 파이차트와 비교했을 때, 기준점이 동일하고 크기를 비교하는데 효과적

 

 

 

2.6 스캐터 플랏

 

1) 매출과 수익 간의 상관관계

 

  • Product name 필드에 의해 sales과 profit 필드가 세부적으로 나뉘짐
  • 각각의 제품별 4년 동안의 sales과 profit 간의 관계에 해당하는 plot
  • profit 기준 색 설정
    • 푸른색 계열: 팔아서 수익을 남기는 제품
    • 주황색 계열: 손해를 보면서 팔았던 제품

 

 

2) 평균할인율과 수익 간의 관계

 

  • 점의 의미: A 기업은 4년 동안 4억 4천4백만의 수익을 얻었고, 평균적으로 제품을 하나 팔 때마다 14.8% 할인을 해줬음
  • Customer name 필드를 세부정보로 추가하면 고객별 평균할률과 수익에 대한 내용 파악 가능

 

 

Q. 할인을 많이 할수록 회사가 얻는 수익은 줄어드는가?

 

  • 분석 탭 → 추세선: 선형
  • 추세선을 추가하여 평균 할인율이 증가할수록 회사가 얻는 수익이 줄어드는 것을 조금 더 명확하게 확인할 수 있음 
  • 추세선 해석: 할인율이 1% 증가할수록 수익은 38만 원 정도 감소

 

 

2.7 박스 플랏

: 이상치를 판단하기 좋은 방법

 

  • 카테고리에 따른 제품의 분포를 박스플랏으로 표현
  • 박스 마우스 우클릭 → 편집 → 기초 마크 숨기기
    • 이상치에만 집중할 수 있게 박스 안의 점들은 제외해서 표현

 

 

 

2.8 히스토그램

 

할인율에 따른 히스토그램

 

  • Discount(구간차원) 생성
    • Discount 마우스 우클릭 → 만들기 → 구간차원 → 구간차원 크기 설정
  • 열 선반의 Discount(구간차원) 불연속형 → 연속형으로 변경
    • 히스토그램은 연속된 데이터를 구간으로 나눈 것이므로 연속형 형태가 적절
  • A 회사의 경우 4년 동안 할인율 [0, 0.5) 구간에서 4,688건의 제품을 판매함

 

 

 

 

2.9 하이라이트 테이블

 

1) 초기 버전

 

  • 수량을 년, 분기별로 테이블로 표현
    • Quantity를 가장 가운데 필드에 drap and drop
    • 년, 분기를 열과 행 선반에 drag and drop
  • 숫자를 파악하는데 시각적으로 효과적이지 않음
    • 하이라이트 테이블을 통해 보안

 

 

   2) 하이라이트 테이블

  • 합계를 색상, 세부정보에 drap and drop
  • 색상을 통해 Quantity의 수준 정도를 시각적으로 표현
  • 빠른 생성법: Quantity, Order date 동시 선택 → 표현 방식 : 하이라이트 테이블
    • 분기 탭 행 선반으로 이동

 

 

 

2.10 트리맵/ 버블 차트

 

1) 트리맵

: 시각적으로 좋은 방법이라고 단정하긴 어려우나, 바 • 라인 • 도넛차트 등 기본 차트 중심으로 시각화를 진행하는 경우 화면이 조금 심심해지는 경향이 있음. 그런 경우 대안이 되는 차트

 

시도별 매출 현황

  • sales, address - sd 동시 선택 → 표현 방식: 트리맵
  • 서울특별시, 경기도 순으로 매출이 많다 적다는 걸 한눈에 파악하긴 어려움
    • 트리맵의 경우 면적을 통해 순위를 판단하는 시각화 방법
    • 면적은 시각적으로 한눈에 파악하기 쉬운 방법은 아님

 

 

2) 버블차트

: 트리맵이 사각형 버전이라면 버블차트는 원 버전

 

시도별 매출 현황

 

  • 비즈니스 상황에서 거의 사용하지 x
  • 생성된 구조 수정은 못 함

 

 

 

 

 

 

 

 

+ 태블로의 기초적인 차트를 그리는 방법에 대해 정리해 봤습니다.

 

개인적으로 태블로의 경우 더 많은 내용을 배우고 싶은데 강의 시간이 짧은 게 너무 아쉽습니다 

태블로 강의가 끝나면 바로 타블로를 이용한 시각화 미니 프로젝트가 시작되는데,

이번에는 어떤 분석을 하게 될지 기대되네요. 

 

 

 

 

 

 

 

반응형