반응형

Data Analysis 5

[데이터 분석] Python 라이브러리 - Pandas, Matplotlib, Numpy 10분만에 배우기

Python에서 데이터 분석을 위한 라이브러리 Pandas, Matplotlib, Numpy를 10분만에 익히는 방법 python에서 데이터 분석을 하기 위해서는 주로 사용하는 라이브러리가 있습니다. pandas, matplotlib, numpy입니다. 패키지들을 이용하는 이유는 데이터 분석을 용이하게 할 수 있도록, matrix연산과 시각화를 지원합니다. pandas는 DataFrame, Series의 데이터 객체를 이용해서 데이터를 쉽게 가공을 할 수 있습니다. 더나아가 평균, 분산, 최대, 최소 등을 쉽게 연산할 수 있습니다. 그 외에도 데이터 변수 사이에 연관성, 그룹, 선택, 조인 등의 다양한 함수를 통해 matrix를 효율적으로 쉽게 가공 할 수 있습니다. matplotlib은 데이터의 분포 ..

데이터분석 2016.07.07

[데이터 분석] Data Exploration Guide - The Art of Feature Engineering(4)

The Art of Feature Engineering Feature Engineering이란? 기존에 있는 데이터의 변수로 feature를 변경하거나, 새롭게 추가하여 모델링을 하거나, 예측을 할때 데이터를 더 유용하게 만드는 방법이라고 할 수 있습니다. feature engineering의 한 예를 들면, 데이터는 날짜별(date(dd-mm-yy))로 쇼핑몰에 얼마나 고객들이 방문하는지에 대한 내용을 담고 있다. 이제 이 데이터를 이용해 쇼핑몰에 고객들이 얼마나 방문하는지 예측을 할 것이다. 하지만 만약 날짜별 쇼핑몰 방문 수를 했을때, 날짜를 그대로 예측하는데 사용하면 어떻게 될까... 물론 그 날짜 그대로 사용하면 의미있는 결과는 나올 수 없다. 하지만 기존에 있는 변수를 이용해서 새로운 변수들을..

데이터분석 2016.07.06

[데이터 분석] 머신러닝 예제 - Loan Prediction

데이터 분석 머신러닝 예제 - Loan Prediction 데이터 분석에 대해서 학습을 할때, 매번 이론만 보니까 크게 와닿은 감이 없었습니다. 몇개의 유명한 사이트에서는 데이터 분석 주제를 던지고, 분석가들 사이에 서로 경쟁을 하는 사이트가 있습니다. 상금도 걸려 있으니 한번 시간이 나면 해보는것도 좋은 경험이 될 것 같습니다. 그 외에도 사이트에서는 data science에 대해서 학습할 수 있는 글 이나 예제을 주니 학습하는데는 좋은 사이트입니다. 실제 데이터 분석가들이 작성한 글이기 때문에 많은 도움이 될것입니다. 주요 사이트는 아래와 같습니다. http://datahack.analyticsvidhya.com/ https://www.kaggle.com/ 이번에 접해본 예제는 Loan Predict..

데이터분석 2016.07.06

[데이터 분석] Data Exploration Guide - Outlier(3)

Outlier란? 잘못 평가된 값으로, 결과적으로 잘못된 분석결과를 초래할 수 있는 값들을 말합니다. 간단하게 말해서 샘플의 전체적인 패턴에서 벗어나게 관측되는 값을 말합니다. 아래 그림을 보면 고객들의 수입을 프로파일링 한 결과를 box-plot 그래프로 표현을 했습니다. 수입의 분포를 보면 $0.8million이 매년 수입의 평균을 나타냅니다. 그러나 두명의 고객은 매년 $4, $4.2 million의 수입이 있습니다. 전체적인 population을 볼때 이 두명의 고객은 상대적으로 많이 높은 수입을 갖고 있습니다. 이처럼 두명의 고객의 수입은 전체적인 수입 패턴에서 벗어나게 나타나는 outlier라고 말할 수 있습니다. Outliers의 종류 Outlier의 종류는 Univariate와 Multiv..

데이터분석 2016.07.05

[데이터 분석] Data Exploration Guide - Missing Value Treatment(2)

Missing Value Treatment 만약 우리가 input data로 사용하는 training data set에서 missing data가 있다면, 해당 데이터로 생성된 model은 biased되거나 power/fit을 감소시키는 문제를 발생합니다. 결과적으로 틀린 모델이 생성되고, 잘못된 예측 또는 분류를 하기 때문에 missing value를 어느 과정에서 생성이 될 수 있는지, 어떻게 다뤄야하는지에 대해서 학습을 해야합니다. Missing values가 발생하는 원인 그렇다면 어느 과정에서 missing values가 발생할까 알아보면, 두가지 data extraction, collection stages에서 발생할 수 있습니다. 1. Data Extraction 데이터를 추출하는 과정에서 ..

데이터분석 2016.07.04
반응형