반응형
분산:
하나의 변수가 변수의 평균에서 얼마나 멀리 떨어져 있는지 계산
공분산:
두 변수가 각각의 평균에서 얼마나 멀리 떨어져 있는지
심슨의 역설:
혼재변수(confounding variables)가 누락되어 상관관계가 잘못 계산되는 심슨의 역설(simp son’s paradox)을 흔히 직면하게 된다.
예) 미국 서부, 동부 과학자 친구수 (석사, 박사에 따라 수가 다르고…)
베이즈 정리:
조건부 확률을 반대로 뒤집는 ‘베이즈 정리’
(조건부확률 ) 사건 E가 발생했다는 가정하에, 사건 F가 발생할 확률만 주어졌을때,
(베이즈 정리) 사건 F가 발생했다는 가정하에, 사건 E가 발생할 확률은?
P(E|F) = P(E,F)/P(F) = P(F|E)P(E)/P(F)
사건 F = 사건F와 사건 E가 모두 발생하는 경우 + 사건 F는 발생하지만 사건 E는 발생하지 않는 경우
P(F) = P(F,E) + P(F,^E)
베이즈정리 = P(E|F) = P(F|E)P(E) / [P(F|E)P(E) + P(F|^E)P(^E)]
확률변수:
확률변수(random variable) 특정 확률분포와 연관되어 있는 변수
모델:
가장 적합한(best) 모델이란? 모델의 오류(error)를 최소화하는 또는 likelihood(우도)를 최대화 하는 것을 의미한다.
반응형
'데이터분석' 카테고리의 다른 글
[xgboost] XGBoost 설치 및 데모 (0) | 2017.02.07 |
---|---|
[Scikit-learn] large data set 학습시키는데 발생하는 문제 (0) | 2017.02.07 |
[데이터 분석] Python 라이브러리 - Pandas, Matplotlib, Numpy 10분만에 배우기 (0) | 2016.07.07 |
[데이터 분석] Data Exploration Guide - The Art of Feature Engineering(4) (3) | 2016.07.06 |
[데이터 분석] 머신러닝 예제 - Loan Prediction (4) | 2016.07.06 |