IGM세계경영연구원

교육목표

데이터를 수치화/도표화하여 데이터를 통해 변수간의 상관성을 파악해 볼 수 있다.
데이터분석에 필요한 통계적 분석방법론과 기술통계 기법을 학습하여 데이터 타입과 목적에 맞는 분석 방법론을 도출한다
방대한 데이터 속 데이터 이면을 파악하여 다양한 관점에서 데이터를 요약해낼 수 있다.

과정 특징

핵심내용만 쏙! 족집게 학습
예제와 시각화자료로 쉽게 빠르게!

데이터 분석의 디테일은 통계로 결정! 전처리, 시각화는 물론 머신러닝 주요 알고리즘 적용되는 족집게 학습
생소한 통계 개념, 다양한 예제와 시각화 자료로 쉽고 빠르게 이해

사용 라이브러리/툴

Jupyter Notebook
주피터 노트북

오픈소스 기반의 웹플랫폼으로 다양한 프로그래밍 언어로
코드 작성 및 실행하는 통합개발환경 (IDE)
Colaboratory
Colab : 코랩

설치 없이 브라우저 내에서 Python 스크립트를 작성하고 실행할 수 있는
일종의 온라인 텍스트 에디터
Pandas
판다스

데이터를 분석 및 조작하기 위한 파이썬 패키지로,
데이터 자료 구조를 다루는 데에 필수 라이브러리
Numpy
넘파이

수치해석용 파이썬 패키지로, 주로 벡터, 행렬 등 수치 연산을 수행하는
선형대수 계산에 주로 사용
Seaborn
씨본

matplotlib으로 기반으로 구동되는 통계 데이터 시각화 라이브러리
pingouin
펭귄

Pandas와 numpy를 기반으로 구동되는 통계 분석 라이브러리
SciPy
사이파이

Numpy 기반으로 구동되는 수치 계산 라이브러리
Matplotlib
맷플로립

NumPy 라이브러리를 활용한 시각화 라이브러리
Scikit-learn
사이키런

머신러닝 알고리즘 사용을 위한 필수 라이브러리

커리큘럼

Day 1
Day 2
Day 3

탐색적 데이터 분석 및 확률의 개요
- 탐색적 데이터 분석
  
  - 실습 데이터셋 준비
  - 목표변수 시각화
  - 목표변수와 입력변수의 관계 확인
- 기술통계 분석
  
  - 대푯값 : 평균, 절사평균, 중위수, 최빈값
  - 산포 : 범위, 분위수, 사분범위, 분산, 표준편차, 중위수절대편차
- 확률의 개념과 특징
  
  - 집합과 벤다이어그램
  - 확률의 개요 및 성질
- 확률분포의 이해
  
  - 확률변수와 확률분포의 개요
  - 정규분포의 이해
  - 표준정규분포 및 데이터 표준화
  - 카이제곱분포, F 분포, t 분포
통계적 가설검정 및 데이터 분석 개요
- 가설검정의 이해 1
  
  - 통계적 가설검정의 개요
  - 공분산과 상관계수
  - 피어슨 상관분석 : 이변량 연속형 변수의 상관관계 확인
- 가설검정의 이해 2
  
  - 독립표본 t-검정 : 두 집단 간 평균 비교
  - 분산분석 : 세 개 이상의 집단 간 평균 비교
  - 교차분석(독립성 검정) : 이변량 범주형 변수의 관계 확인
- 데이터 분석 개요 1
  
  - 데이터 분석의 4가지 유형
  - 데이터 마이닝 프로세스
  - 머신러닝의 이해
  - 지도학습과 비지도학습
  - 지도학습 프로세스
  - 데이터셋 분할 : 자료 분할 vs 교차 검증
- 데이터 분석 개요 2
  
  - 회귀모형의 성능 평가 기준 : MSE, RMSE, MAE, MAPE 등
  - 분류모형의 성능 평가 기준 : 혼동행렬, F1 점수, ROC 곡선
  - 모형의 복잡도와 오차의 관계
  - 과적합 및 과소적합 판단 기준
머신러닝 알고리즘 이해(회귀분석)
- 선형 회귀분석 1
  
  - 선형 회귀분석의 개요
  - 실습 데이터셋 준비
  - 범주형 입력변수의 더미변수 처리
  - 데이터셋 분할
  - 선형 회귀모형 적합 및 결과 확인
  - 선형 회귀모형 및 회귀계수의 유의성 검정
- 선형 회귀분석 2
  
  - 다중공선성 변수 탐색 : 분산팽창지수
  - 변수 선택 : 단계적 방법
  - 표준화 회귀계수 확인 : 목표변수에 대한 상대적인 영향력 확인
  - 목표변수의 추정값 생성
  - 회귀모형의 성능 평가 : MSE, RMSE, MAE, MAPE
- 로지스틱 회귀분석 1
  
  - 로지스틱 회귀분석의 개요
  - 실습 데이터셋 준비
  - 범주형 입력변수의 더미변수 처리
  - 데이터셋 분할
  - 로지스틱 회귀모형 적합 및 결과 확인
  - 로지스틱 회귀모형 및 회귀계수의 유의성 검정
- 로지스틱 회귀분석 2
  
  - 다중공선성 변수 탐색 : 분산팽창지수
  - 오즈비 확인: 로지스틱 회귀모형의 해석
  - 표준화 회귀계수 확인 : 목표변수에 대한 상대적인 영향력 확인
  - 목표변수의 추정확률 생성
  - 분류모형의 성능 평가 : 혼동행렬, F1 점수, ROC 곡선

강사소개

나성호 IGM 겸임교수

전문분야
R과 Python 프로그래밍 기초, 통계 분석, 데이터 시각화, 머신러닝, 웹 크롤링, 텍스트 마이닝, 업무자동화
경 력
헬로데이터사이언스 대표 (2019 ~ 현재)
IGM세계경영연구원 겸임교수 (2022 ~ 현재)
aSSIST MBA 객원교수 (2021 ~ 현재)
하나금융경영연구소, 데이터 사이언티스트 (2013 ~ 2019)
하나카드, 데이터 분석가 (2010 ~ 2013)
현대캐피탈, 데이터 분석가 (2009 ~ 2010)
삼성화재해상보험, 데이터 분석가 (2002 ~ 2009)
주요 프로젝트 및 강의경력
SK하이닉스, LG전자, LS그룹, 삼성전기, LG인화원, GH SHOP, SK C&C, SK이노베이션, PoscolCT, ktds, KB 국민카드, GS 칼텍스, 한국언론재단 소속 언론사 다수

후기

여** 사원

데이터 분석에 관련된 통계 이론에 대해서 체계적인 학습 한 점이 좋았으며 머신러닝의 기본 이해까지 큰 도움이 되었다
김** 차장

강의를 들을수록 어렵지만 하고자 하는 열의가 생겼으며 데이터 분석의 차원이 높이는 느낌이었다.

과정로드맵

파이썬 Basic
파이썬 Advanced
파이썬 현업 데이터 분석
데이터 분석 프로젝트

IGM Digtal Talent School 연계 과정

파이썬 활용 중급
HR 데이터 분석 과정
- HR 데이터 분석 프로세스 수립
- HR 데이터 분석 자신감 향상
- 데이터 중심 사고로 HR 분야 전문성 함양
상세내용 확인
파이썬 활용 중급
현업 데이터 분석 과정
- 현업 적용 데이터 분석 역량 함양
- 다양한 데이터 분석 라이브러리 활용
- 문제해결형 데이터 분석 프로젝트 실시
상세내용 확인
파이썬 활용 초급
데이터 분석 Basic 과정
- 데이터 기반 의사결정 프로세스 이해
- 파이썬의 동작원리 및 기본적인 문법
- 다양한 데이터를 생성/처리/분석/시각화
상세내용 확인

IGM세계경영연구원

데이터 분석 Advanced 과정

Jupyter Notebook주피터 노트북

ColaboratoryColab : 코랩

Pandas판다스

Numpy넘파이

Seaborn씨본

pingouin펭귄

SciPy사이파이

Matplotlib 맷플로립

Scikit-learn사이키런

탐색적 데이터 분석 및 확률의 개요

통계적 가설검정 및 데이터 분석 개요

머신러닝 알고리즘 이해(회귀분석)

나성호 IGM 겸임교수

여** 사원

김** 차장

Jupyter Notebook
주피터 노트북

Colaboratory
Colab : 코랩

Pandas
판다스

Numpy
넘파이

Seaborn
씨본

pingouin
펭귄

SciPy
사이파이

Matplotlib
맷플로립

Scikit-learn
사이키런