데이터 용어 정리

데이터분석

쌍쌍바나나 2017. 2. 7. 20:48

분산:

하나의 변수가 변수의 평균에서 얼마나 멀리 떨어져 있는지 계산

공분산:

두 변수가 각각의 평균에서 얼마나 멀리 떨어져 있는지

심슨의 역설:

혼재변수(confounding variables)가 누락되어 상관관계가 잘못 계산되는 심슨의 역설(simp son’s paradox)을 흔히 직면하게 된다.

예) 미국 서부, 동부 과학자 친구수 (석사, 박사에 따라 수가 다르고…)

베이즈 정리:

조건부 확률을 반대로 뒤집는 ‘베이즈 정리’

(조건부확률 ) 사건 E가 발생했다는 가정하에, 사건 F가 발생할 확률만 주어졌을때,

(베이즈 정리) 사건 F가 발생했다는 가정하에, 사건 E가 발생할 확률은?

P(E|F) = P(E,F)/P(F) = P(F|E)P(E)/P(F)

사건 F = 사건F와 사건 E가 모두 발생하는 경우 + 사건 F는 발생하지만 사건 E는 발생하지 않는 경우

P(F) = P(F,E) + P(F,^E)

베이즈정리 = P(E|F) = P(F|E)P(E) / [P(F|E)P(E) + P(F|^E)P(^E)]

확률변수:

확률변수(random variable) 특정 확률분포와 연관되어 있는 변수

모델:

가장 적합한(best) 모델이란? 모델의 오류(error)를 최소화하는 또는 likelihood(우도)를 최대화 하는 것을 의미한다.

[xgboost] XGBoost 설치 및 데모 (0)	2017.02.07
[Scikit-learn] large data set 학습시키는데 발생하는 문제 (0)	2017.02.07
[데이터 분석] Python 라이브러리 - Pandas, Matplotlib, Numpy 10분만에 배우기 (0)	2016.07.07
[데이터 분석] Data Exploration Guide - The Art of Feature Engineering(4) (3)	2016.07.06
[데이터 분석] 머신러닝 예제 - Loan Prediction (4)	2016.07.06

불로

함께 하는 블로그

스파크, dict, ubuntu, Spark, 안드로이드, 빅데이터, 데이터분석, javascript, git, 파이썬, TensorFlow, Python, 설치, 자바스크립트, 소스코드, nodejs, Linux, RDD, Android, 리눅스,

불로