데이터분석

데이터 용어 정리

쌍쌍바나나 2017. 2. 7. 20:48
반응형

분산:

하나의 변수가 변수의 평균에서 얼마나 멀리 떨어져 있는지 계산


공분산:

두 변수가 각각의 평균에서 얼마나 멀리 떨어져 있는지

심슨의 역설:

혼재변수(confounding variables)가 누락되어 상관관계가 잘못 계산되는 심슨의 역설(simp son’s paradox)을 흔히 직면하게 된다. 

예) 미국 서부, 동부 과학자 친구수 (석사, 박사에 따라 수가 다르고…)


베이즈 정리:

조건부 확률을 반대로 뒤집는 ‘베이즈 정리’ 


(조건부확률 ) 사건 E가 발생했다는 가정하에, 사건 F가 발생할 확률만 주어졌을때,

(베이즈 정리) 사건 F가 발생했다는 가정하에, 사건 E가 발생할 확률은?


P(E|F) = P(E,F)/P(F) = P(F|E)P(E)/P(F)


사건 F = 사건F와 사건 E가 모두 발생하는 경우 + 사건 F는 발생하지만 사건 E는 발생하지 않는 경우

P(F) = P(F,E) + P(F,^E)


베이즈정리 = P(E|F) = P(F|E)P(E) / [P(F|E)P(E) + P(F|^E)P(^E)]

확률변수:

확률변수(random variable) 특정 확률분포와 연관되어 있는 변수


모델:

가장 적합한(best) 모델이란? 모델의 오류(error)를 최소화하는 또는 likelihood(우도)를 최대화 하는 것을 의미한다.



반응형