본문 바로가기

데이터 분석/데이터 분석 부트캠프

[패스트캠퍼스] 데이터 분석 부트캠프 8기 1주차 학습일지

반응형

 

 

+ 노션으로 정리한 후에 붙여 넌 거라 서식이 조금 깨지네요

 정리본을 보고 싶으시면 링크로 이동해 주세요 :)

 

https://solar-geology-c0d.notion.site/Excel-fc435a690e474388a035b5d050368724

 


 

 

부트캠프 1일차 - 2023.02.20 "시작의 날"

 

 

합격 안내를 받고 딱 일주일 만에 OT를 들었다.

OT에서 부트캠프 교육과정, 커리큘럼 소개, 과정 외 학습 등에 대한 안내를 전달받고

랜덤으로 팀을 구성해서 10문 10답을 하고 타인에 대해 소개하는 시간을 가졌다.

 

처음엔 조금 어색했지만 같은 목표를 가진 분들이 모여서 그런지 나중에는 서로 공통점도 발견하고 좋았던 ㅎㅎ

30분 정도의 시간이 주어졌는데 생각보다 시간이 빨리 가서 놀라기도 했다.

 

당장 내일부터 본격적인 활동이 시작되는데 두근거리면서 긴장되는 마음이 공존한다.

데이터 분석가를 희망하지만 아직까지 어떤 분야를 준비할지 결정 못했는데

부트캠프를 통해 이런저런 준비를 하고 싶다.

 

 

 

 


 

 

 

부트캠프 2일차 - 2023.02.21 "Excel 기초교육"

 

더보기

이동훈 강사님께서 진행하시는 Excel 교육을 수강했다. 

사실 엑셀을 본격적으로 공부해 본 적이 없어서 수강 전까지만 해도 걱정되는 마음이 컸는데,

본격적인 강의 1일차라 그런지 평이한 난이도로 진행됐다.

 

+ 강의 시작 전에 강사님께서 엑셀을 배워야 하는 이유를 현실적으로 말해주시면서 시작했는데,

직관적인 이유인 '칼퇴'를 위해 필수적이라 하셔서 '아, 이건 내가 마스터해야겠다'라는 마음가짐이 저절로 생기기도 했다.

 

수업은 데이터 분석의 개념, 엑셀 기본 원리, 탐색적 데이터 분석 등에 대해 다뤘다.

개인적으로 간단한 단축키만 사용해 왔었는데 여러 단축키를 알려주셔서 좋았다.

(다만 아직 단축키가 익숙지 않아 복습이 필요하다 느낌...)

 

1. 엑셀 데이터 종류

  • 값 (Value)
    • 텍스트: 계산 x
    • 수식: 계산 o
  • 수식 (Formule)
    • 계산식: 사칙연산, 논리연산 등
    • 함수: 데이터를 입력하면 특정 결과 출력
  • 서식 (Format)
    • 글꼴 서식: 글꼴 색, 크기, 굵기, 기울임, 밑줄 등
    • 셀 서식: 셀 배경색, 셀 테두리 등

 

2. 엑셀의 참조 종류

  • 상대참조: 함수를 복사/ 붙여넣기 할 때 참조된 셀이 함께 이동하는 참조 (기본 설정)

 

→ 수식을 복사해 한 칸 밑으로 이동하면 참조된 셀도 이동.

 

 

  • 절대참조: 함수를 복사/ 붙여넣기 해도 참조된 셀 이동 x

 

  • 혼합참조 한 셀의 열 or 행에만 절대 참조가 걸려있고 다른 하나는 상대 참조인 상태

        → 열은 상대참조이면서 행인 절대참조인 상태.

            B$1 + C$1, C$1 + D$1, D$1 + E$1, … 이런 형태 가능

 

 

          → 열은 절대참조, 행은 상대참조 상태

               $A2+$B2, $A3+$B3, $A4+$B4, …

 

 

 

3. 탐색적 데이터 분석(EDA)

: 통계학의 경우 가설 검정 등을 수행하는데 치우쳐, 자료가 가지고 있는 본연의 의미를 찾는데 어려움 존재.

이를 보완하고자 주어진 자료만을 가지고도 충분한 정보를 찾을 수 있도록 하는 탐색적 자료 분석 방법을 의미.

 

  • EDA 중요성
    • 원하는 형식으로 수집되는 데이터는 없음
    • 수집된 데이터의 특성 및 분포 파악 필요
    • 결측치, 이상치의 존재 유무 파악 가능
    • EDA의 결과를 바탕으로 분석에 필요한 데이터 전처리 수행 가능
    • 가장 적합한 분석 방법 결정 가능

 

  • EDA의 시작은 데이터 형태 파악에서 부터 시작됨.

 

 

3.1 피벗 테이블을 이용한 EDA

  • 피벗 테이블: raw 데이터를 요약한 통계표
  • 피벗 테이블 생성 시, 어떤 요약 통계표를 만들어야 하는지 명확하게 알고 있어야 함 (구상도 그려보기)

 

  • 수행법: raw data 선택 → [삽입] 탭 → 피벗 테이블

 

 

 


 

 

 

부트캠프 3일차 - 2023.02.22 "Excel 기초교육2"

 

더보기

오늘은 어제에 이어서 Excel 프로젝트 특강을 들었다.

현업에서 자주 사용되는 IF, COUNT, VLOOKUP, INDEX, MATCH 함수에 대한 실습시간을 가졌는데

엑셀이 익숙하지 않아서 그런지 초반에는 괜찮았는데 VLOOKUP 부터 뚝딱거림

강사님의 설명은 이해되는데 막상 실습으로 들어가니 역시 오류가 두둥...!

복습은 선택이 아닌 필수란 걸 느낌.... 핳

 

1. 데이터 전처리

  • 데이터 전처리: 데이터 분석 목적과 방법에 맞게 데이터를 가공 or 처리하는 과정.
  • 데이터 및 변수 형태 변환, 변수 선정, 결측치 및 이상치 처리, 데이터 분류, 데이터 분리 및 결합, 기타 데이터 가공 및 처리 등에 해당

 

 

1.1 데이터 분류하기(1) - IF 함수와 IF 중첩

  • IF 함수: 부등호/ 등호를 활용해 조건을 가정하고 조건에 만족하는 값과 만족하지 않는 값을 다르게 표시

 

  • IF(logical_test, value_if_true, value_if_false)
    • logical_test: 조건
    • value_if_true: 조건을 만족할 경우 표시할 값
    • value_if_false: 조건을 만족하지 않을 경우 표시할 값
    • 2가지로 분류

 

  • IF(logical_test1, value_if_true1, IF(logical_test2, value_if_true2, value_if_false)) ; IF 함수의 중첩
    • 3가지로 분류
    • 분류 기준이 여러 가지일 경우 계속해서 중첩 가능

 

 

1.2 데이터 분류하기(2) - COUNT 함수

  • COUNT: 특정 범위의 숫자 데이터가 들어있는 셀 개수 파악
  • COUNTA: 특정 범위에서 데이터가 들어있는 셀 (NA값이 아닌 것)의 개수 파악
  • COUNTBLANK: 특정 범위에서 비어 있는 셀의 개수 파악
  • COUNTIFS: 특정 범위에서 하나의 조건을 만족하는 셀의 개수 파악
    • COUNTIFS(criteria_range1,criteria1, criteria_range2,criteria2, … )
      • criteria_range_i : 데이터의 개수를 파악할 셀 범위1
      • criteria_i: 개수를 셀 데이터의 조건1

 

 

1.3 데이터 불러오기(1) - VLOOKUP 함수

: 공통 기준 열을 기준으로 n번째 있는 데이터를 찾아오는 함수

 

  • VLOOKUP 함수를 많이 사용하는 이유
    • 방대하고 다양한 데이터에서 내가 원하는 데이터를 불러는 게 업무의 시작
    • VLOOKUP은 데이터를 ‘열’ 별로 정리하기 때문에 인식하기 편함

 

  • 사용 조건
    • 현재 작성 중인 표와 원래 데이터 간의 공통기준 열이 있어야 함
    • 내가 불러오고자 하는 데이터가 원래 데이터의 공통 기준 열 오른쪽에 있어야 함
    • 공통 기준열에 중복된 데이터가 없어야 함(고유값)

 

  • VLOOKUP(lookup_value, table_array, col_index_num, [range_lookup])
    • lookup_value: 찾을 기준 데이터
    • table_array: 불러올 데이터의 범위 (공통기준열부터)
    • col_index_num: 불러올 데이터의 열 번호 (공통 기준열을 1열로 했을 때)
    • range_lookup: 0,1의 값을 가짐
      • 0: lookup_value 가 정확하게 일치할 때만 표시
      • 1: lookup_value 와 근사치여도 표시 (디폴트)

 

 

1.4 데이터 불러오기(2) - MATCH 함수

: 내가 찾고 싶은 값이 한 행/열에서 몇 번째에 있는지를 숫자로 알려줌

 

  • MATCH(lookup_value, lookup_array, matct_type)
    • lookup_value: 내가 찾고 싶은 값
    • lookup_array; 내가 찾고 싶은 값이 포함된 단일 행/열 범위
    • match_type: VLOOKUP 함수의 range_lookup과 동일

 

 

2. 데이터 시각화

2.1 기본차트

  • 막대그래프: 막대그래프의 높낮이를 통해 수치의 크고 작음, 많고 적음 등을 표현
  • 꺾은선 그래프: 선형 그래프의 높낮이를 통해 수치의 크고 높고 낮음 등을 표현
  • 원형 그래프: 원형 그래프의 크기, 비율을 통해 수치의 크고 작음 등 표현

 

2.2 심화차트

  • 콤보형 그래프: 막대형 or 꺾은선형 등 다양한 그래프 중 2개 이상의 그래프를 한 차트에 표현
  • 거품형 그래프: 숫자의 크기나 비율을 거품으로 나타내는 그래프. 거품의 위치와 크기, 색 등을 활용하여 정보를 표현
  • 폭포형 차트: 숫자의 증가, 감소분만큼을 막대그래프로 표현

 

 

 


 

 

 

부트캠프 4일차 - 2023.02.23 "Excel 복습 및 피어세션"

더보기

오늘은 2,3일차에 진행했던 엑셀 강의를 온라인으로 다시 보면서 복습 시간을 가졌다. 

내용은 실강의에서 진행했던 것과 많이 중복되기 때문에 새롭게 배운 내용만 정리했다.

 

그리고 첫 번째 피어세션을 진행했다!

개인적으로 오프라인 강의를 선호해서 100% 온라인 강의에 조금 아쉬움이 있었는데,

중간중간 다른 수강생분들과 소통할 수 있는 피어세션을 가져서 재밌었다!!

1. 데이터 분석 기법 활용

1.1 상관분석

: 두 변수 간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법

  • 상관관계: 두 변수가 선형 관계에 있는지 비선형 관계에 있는지 파악
  • 상관계수: 두 변수 사이의 상관성을 나타내며 일반적으로 피어슨 상관계수를 사용 (-1 <= r <= 1)
  • 높은 상관계수를 가졌다고 해서 두 변수 간의 인과관계가 있다는 것은 아님. 단순히 두 변수간의 강한 상관관계가 있다는 해석이 맞음
  • 수행법: [데이터] 탭 → 데이터 분석: 상관분석

 

 

2.1 회귀분석

: 두 개 이상의 연속형 변수(수치) 종속 변수와 독립 변수 간의 관계를 파악하는 분석

 

 

  • 목적: 두 변수 간의 관계 파악/ 미래 값 예측

 

  • 단순 회귀 분석
    • 독립 변수가 한 개 일 때, 독립 변수가 변할 때 종속 변수 값이 어떻게 변하는지를 가장 잘 설명해 주는 직선을 찾아 분석하는 방법
    • 최소제곱법(LSE)을 이용하여 전체적으로 오차가 작은 직선을 찾음.
    • 오차: 실제값 - 예측값

 

 

 

  • 회귀 분석의 평가와 해석
    • 결정계수: 0~1 사이의 값을 가지며, 1에 가까울수록 회귀 모형이 실제 값을 잘 설명함
    • F 값: 0.05 미만이면 해당 회귀 모형이 유의미

 

  • 수행법: [데이터] 탭 → 데이터 분석: 회귀분석

 

 

 

 

반응형