2 분 소요

Purpose of this Posting

  • 산포의 척도에 대해 알아봅니다.

Dispersion(산포)


산포(Dispersion)이란 자료들이 서로 얼마나 퍼져 있는지를 나타내는 측도입니다.

그뿐만 아니라 중심위치가 얼마나 안정적인지에 대한 중요한 정보도 제공합니다.

그렇다면 산포에 따른 중심위치에 대한 정보는 어떻게 변동되는지에 대해 알아보도록 하겠습니다.


산포에 따른 중심위치에 대한 정보


위와 같이 산포에 따라 중심위치에 대한 정보는 변동됩니다.

What is Robust in statistics?


여러 가지 산포의 척도에 대해 알아보기 앞서 통계학에서 Robust란 무엇인지 알아보도록 하겠습니다.

이상점(Outlier)이란 변수의 분포에서 특출 나게 크거나 작은 값을 의미합니다.

분포의 산포를 확인하게 해주는 값이 이상점에 영향을 크게 받을수록 이상점에 Robust 하지 않다고 합니다.

역으로 이상점에 영향을 적게 받을수록 이상점에 Robust 하다고 합니다.

이상점에 Robust 하지 않은 값으로 분포의 산포로 사용하기에는 무리가 있습니다.

이제 Robust에 대해 알아보았으니 여러 가지 산포의 척도에 대해 알아보도록 하겠습니다.

Range(범위)


범위(Range)란 자료 중 가장 큰 값과 가장 작은 값, 이 두 값의 차이를 의미합니다.

자료 중 가장 큰 값, 가장 작은 값만 사용하기 때문에 자료의 전체 정보를 사용하지 못하는, 즉 정보의 손실이 크다는 단점이 있습니다.

또한 가장 큰 값과 가장 작은 값만 사용하여 값을 구하기 때문에 이상점이 있는 경우에는 전체적인 정보의 형태와는 관계없이 범위가 클 수 있기 때문에 범위로 자료의 퍼진 정도를 판단하기에는 무리가 있습니다.

위에서 알아보았듯이 범위는 이상점에 영향을 크게 받으므로 이상점에 Robust 하지 않다고 할 수 있습니다!

다음으로는 이렇게 이상점에 Robust 하지 않은 범위를 보완하는 사분위수 범위(InterQuartile Range)에 대해 알아보도록 하겠습니다.

InterQuartile Range(사분위수 범위)


사분위수(Quartile)란 자료를 동일한 비율로 4등분 했을 때 3개의 지점 위치를 뜻합니다.

더 자세하고 쉽게 알아보기 위해 그림을 통해 알아보도록 하겠습니다.


사분위수


사분위수에 대해 알아보았으니 다음으로는 필기 그림을 통해 사분위수 범위는 어떻게 구하는지에 대해 알아보도록 하겠습니다.


사분위수 범위 구하는 식


위 식과 같이 사분위수 범위(IQR)는 제3사분위수에 위치한 값과 제1사분위수에 위치한 값을 빼준 값입니다.

범위는 가장 큰 값과 가장 작은 값을 뺀 값이기 때문에 이상점에 Robust 하지 않았죠?

그러한 단점을 보완한 값인 사분위수 범위는 자료의 25% 지점부터 75% 지점 사이의 값만 사용하기 때문에 이상점이 존재해도 값은 영향을 받지 않습니다. 

즉, 사분위수 범위는 이상점에 Robust 한 값이죠!

Sample Variance(표본 분산)


표본 분산(Sample Variance)이란 표본의 산포 정도입니다.

중심위치로부터 표본들의 거리가 커질수록 표본 분산이 크고, 거리가 작을수록 표본 분산이 작습니다.

그렇다면 그래프를 통해 어떤 그래프가 표본 분산이 가장 크고, 어떤 그래프가 표본 분산이 가장 작은지 알아보며 분산에 대한 이해도를 키워보도록 하겠습니다.



1 ~ 3번 그래프 중 가장 표본 분산이 가장 작은 그래프 선은 무엇일까요?

바로 중심위치에서 자료들의 거리가 가장 작은 1번 그래프가 표본 분산이 가장 작은 그래프 선입니다.

그렇다면 표본 분산은 어떻게 계산하는지 알아보아야겠죠?

표본 분산은 자료의 평균으로부터 떨어진 표본들의 거리의 합, 즉 편차들의 합을 활용해 구합니다.

이때 아래와 같은 질문을 갖는 분들이 계실 수 있습니다.

편차들의 합은 0이 되는데, 그렇다면 표본 분산은 항상 0인가요?

그렇죠! 편차들의 합은 0이 됩니다. 

그래서 표본 분산을 계산할 때, 편차에 제곱한 값들을 합해서 사용한답니다.





위의 표본 분산 공식을 보고 궁금증이 하나 생길 수 있습니다.

n개의 표본을 이용해 표본 분산을 구하는데, n-1로 나누는 거죠?

잘 생각해보면 이 궁금증은 굉장히 쉽게 해결할 수 있습니다.

편차를 구할 때 평균값을 이용하기 때문에 평균값과 같은 자료의 값과 평균의 편차는 0이 되기 때문에 사실상 실제 영향을 주는 표본의 개수는 n개가 아닌 n-1개인 것이죠.

그래서 n이 아닌 n-1로 나누어주는 것입니다.

Sample Standard Deviation(표본 표준 편차)


앞서 표본 분산에 대해 알아보았습니다.

표본 분산을 구할 때 편차의 제곱합을 이용해 값을 구하기 때문에 값이 커지고 단위가 달라집니다.

그래서 분산에 제곱근을 취해서 원래 단위로 복원해주는 값이 존재합니다. 

그것이 바로 표본 표준 편차(Sample Standard Deviation)입니다! 

표본 표준 편차는 표본 분산에 제곱근만 씌운 값이기 때문에 이 값 또한 표본들이 평균으로부터 얼마나 떨어져 있는지 알려줍니다.

표본 표준 편차를 구하는 공식은 아래와 같습니다.


표본 표준 편차 공식


이번 포스팅에서는 산포란 무엇인지부터 시작해서 표본 표준 편차까지 알아보았습니다.

다음 포스팅에서는 표본 표준 편차의 단점을 보완해주는 변동 계수(Coefficient of Variance)에 대한 포스팅을 작성해보도록 하겠습니다!

긴 글 읽어주셔서 감사하다는 말씀드리며 마치도록 하겠습니다.

감사합니다!

댓글남기기