통계학

평균, 표준편차, 분산에 대한 개념

쌍쌍바나나 2016. 6. 15. 07:56
반응형

평균, 표준편차, 분산에 대한 개념


평균

평균은 모든 데이터의 값을 더하고, 데이터의 개수로 나눈 값이다. 중심성향에 대한 추정량을 계산할때 사용한다.  


표준편차와 분산

  표준편차와 분산을 이해하기전에 편차라는 개념을 알아야 한다. 편차는 하나의 데이터 값이 평균에서 얼마나 떨어져있는지에 대한 값이다. 예를들어 데이터의 평균이 3인 데이터가 있을때, 데이터의 값이 6이라고 하면 편차는 3이다. 하나의 데이터가 아니라, 여러개의 데이터에서 얼마나 떨어져있는지에 대한 값을 계산할때 편차의 합을 하게 되면 편차는 음수와, 양수의 값을 갖을 수 있기때문에 평균값에서 실제 값이 얼마나 오류가 있는지 판단하기 위해서는 편차들의 합을 사용할 수 없다. 그래서 편차들의 합을 양수화 하기 위해 제곱을 사용한다. 편차들의 제곱의 합을 계산하면 이 값이 바로 분산(Variance)의 값으로 편차의 제곱의 합이다. 

  분산의 값은 편차에 제곱을 하여 계산했기 때문에, 실제 값에서 너무 떨어져 있게 된다. 한마디로 뻥~튀기가 되버리는 값이 되기 때문에, 실제 값과 근사한 오차의 값을 구하기 위해 제곱근(루트)를 씌워 준다. 

  즉, 분산에서 루트를 씌운 값이 표준편차(standard deviation)이며, 표준편차는 평균으로 부터 원래 데이터에 대한 오차범위의 근사값이고, 흩어진 정도에 대한 척도가 된다. 그렇기 때문에 결과적으로 분산을 사용하지 않고, 우리는 표준편차를 사용해 흩어진 정도를 알아본다.  

표기법

  평균, 표준편차, 분산은 표기법이 모집단, 표본일때 다른게 표기를 한다. 여기서 모집단(population)은 조사대상이 전체인 경우를 말한다. 이런 경우를 통계학에서는 전수 조사라고 말한다. 하지만 모집단이 커서 전수조사가 어려운 경우가 있다. 그럴때는 그 집단의 특성을 추정하기 위해 일부 표본(sample)만 추출하여 모집단의 특성을 추측하는 것을 한다. 이런 경우를 표본조사라고 한다. 



[참고] http://navercast.naver.com/contents.nhn?rid=22&contents_id=844&leafId=22
[참고] http://www.slideshare.net/DavidBalfour/introduction-to-statistics-3

반응형