반응형

분산 2

데이터 용어 정리

분산: 하나의 변수가 변수의 평균에서 얼마나 멀리 떨어져 있는지 계산 공분산: 두 변수가 각각의 평균에서 얼마나 멀리 떨어져 있는지 심슨의 역설: 혼재변수(confounding variables)가 누락되어 상관관계가 잘못 계산되는 심슨의 역설(simp son’s paradox)을 흔히 직면하게 된다. 예) 미국 서부, 동부 과학자 친구수 (석사, 박사에 따라 수가 다르고…) 베이즈 정리: 조건부 확률을 반대로 뒤집는 ‘베이즈 정리’ (조건부확률 ) 사건 E가 발생했다는 가정하에, 사건 F가 발생할 확률만 주어졌을때, (베이즈 정리) 사건 F가 발생했다는 가정하에, 사건 E가 발생할 확률은? P(E|F) = P(E,F)/P(F) = P(F|E)P(E)/P(F) 사건 F = 사건F와 사건 E가 모두 발생하..

데이터분석 2017.02.07

평균, 표준편차, 분산에 대한 개념

평균, 표준편차, 분산에 대한 개념 평균 평균은 모든 데이터의 값을 더하고, 데이터의 개수로 나눈 값이다. 중심성향에 대한 추정량을 계산할때 사용한다. 표준편차와 분산 표준편차와 분산을 이해하기전에 편차라는 개념을 알아야 한다. 편차는 하나의 데이터 값이 평균에서 얼마나 떨어져있는지에 대한 값이다. 예를들어 데이터의 평균이 3인 데이터가 있을때, 데이터의 값이 6이라고 하면 편차는 3이다. 하나의 데이터가 아니라, 여러개의 데이터에서 얼마나 떨어져있는지에 대한 값을 계산할때 편차의 합을 하게 되면 편차는 음수와, 양수의 값을 갖을 수 있기때문에 평균값에서 실제 값이 얼마나 오류가 있는지 판단하기 위해서는 편차들의 합을 사용할 수 없다. 그래서 편차들의 합을 양수화 하기 위해 제곱을 사용한다. 편차들의 제..

통계학 2016.06.15
반응형