반응형

데이터 분석 3

[데이터 분석] Python 라이브러리 - Pandas, Matplotlib, Numpy 10분만에 배우기

Python에서 데이터 분석을 위한 라이브러리 Pandas, Matplotlib, Numpy를 10분만에 익히는 방법 python에서 데이터 분석을 하기 위해서는 주로 사용하는 라이브러리가 있습니다. pandas, matplotlib, numpy입니다. 패키지들을 이용하는 이유는 데이터 분석을 용이하게 할 수 있도록, matrix연산과 시각화를 지원합니다. pandas는 DataFrame, Series의 데이터 객체를 이용해서 데이터를 쉽게 가공을 할 수 있습니다. 더나아가 평균, 분산, 최대, 최소 등을 쉽게 연산할 수 있습니다. 그 외에도 데이터 변수 사이에 연관성, 그룹, 선택, 조인 등의 다양한 함수를 통해 matrix를 효율적으로 쉽게 가공 할 수 있습니다. matplotlib은 데이터의 분포 ..

데이터분석 2016.07.07

[데이터 분석] Data Exploration Guide - The Art of Feature Engineering(4)

The Art of Feature Engineering Feature Engineering이란? 기존에 있는 데이터의 변수로 feature를 변경하거나, 새롭게 추가하여 모델링을 하거나, 예측을 할때 데이터를 더 유용하게 만드는 방법이라고 할 수 있습니다. feature engineering의 한 예를 들면, 데이터는 날짜별(date(dd-mm-yy))로 쇼핑몰에 얼마나 고객들이 방문하는지에 대한 내용을 담고 있다. 이제 이 데이터를 이용해 쇼핑몰에 고객들이 얼마나 방문하는지 예측을 할 것이다. 하지만 만약 날짜별 쇼핑몰 방문 수를 했을때, 날짜를 그대로 예측하는데 사용하면 어떻게 될까... 물론 그 날짜 그대로 사용하면 의미있는 결과는 나올 수 없다. 하지만 기존에 있는 변수를 이용해서 새로운 변수들을..

데이터분석 2016.07.06

[데이터 분석] Data Exploration Guide - (1)

Data Exploration Guide Data Exploration, preparation, cleaning, 등의 데이터로 실제 모델을 만들기 전에 데이터 전처리에 종합적인 방법에 대해서 설명을 하려고 합니다. 일단 데이터를 통해 모델을 만들면, 정확도를 올리기 위해 많은 방법론 적인 내용이 있습니다. 그 데이터를 전처리 하는 과정은 아래와 같습니다. 1. Steps of Data Exploration and Preparation 2. Missing Value Treatment 3. Techniques of Outlier Detection and Treatment 4. The art of feature Engineering Steps of Data Exploration and Preparation ..

데이터분석 2016.07.01
반응형