반응형

데이터분석 13

[데이터 분석] Data Exploration Guide - Missing Value Treatment(2)

Missing Value Treatment 만약 우리가 input data로 사용하는 training data set에서 missing data가 있다면, 해당 데이터로 생성된 model은 biased되거나 power/fit을 감소시키는 문제를 발생합니다. 결과적으로 틀린 모델이 생성되고, 잘못된 예측 또는 분류를 하기 때문에 missing value를 어느 과정에서 생성이 될 수 있는지, 어떻게 다뤄야하는지에 대해서 학습을 해야합니다. Missing values가 발생하는 원인 그렇다면 어느 과정에서 missing values가 발생할까 알아보면, 두가지 data extraction, collection stages에서 발생할 수 있습니다. 1. Data Extraction 데이터를 추출하는 과정에서 ..

데이터분석 2016.07.04

Jupyter Notebook 특징 및 설치 방법

Jupyter Notebook Jupyter Notebook은 live code, equation, visualization, 그리고 explanatory text를 할 수 있는 web application 입니다. IPython Notebook과 유사하지만 서버를 두고 작성하기 때문에 공유가 가능하다는 장점이 있습니다. data cleaning, transformation, numerical simulation, statistical modeling, machine learning 외에도 많은 용도로 사용이 가능합니다. Jupyter 특징 Language of choice Notebook에서는 40개의 프로그래밍 언어를 지원하고 있습니다. Python, R, Julia, Scala 등 Share not..

데이터분석 2016.06.17

Spark 클러스터 구조

들어가며 Spark를 튜닝하기 위해서는 클러스터의 구조가 어떻게 구성이 되어 있는지, 프로그램은 어떤 순서로 실행이 되는지에 대한 지식은 보유를 하고 계셔야 시스템을 설정 및 튜닝이 가능합니다. 예를 들어 설정하는 옵션에서 executor-memory의 값을 설정해야 하는데, executor가 어떤 역할을 하는지 모른다면... 아니되오 . Spark의 components를 Driver Program, SparkContext, Cluster Manager, Worker Node, Executor, Task, Cache가 있고, 각각의 역할과 어떻게 동작하는지에 대해서 알아보겠습니다. ComponentsDriver Program main()함수를 갖고 있는 프로세스를 말합니다. 우리가 spark-submit..

빅데이터/Spark 2016.06.13
반응형