[Statistics] 중심 위치 (평균/중앙값/절사평균/최빈값)
Purpose of this Posting
- 중심 위치를 나타내는 여러 척도에 대해 알아봅니다.
중심위치
자료의 특성을 파악하는 데 있어 시각적 기법은 중요한 정보를 제공합니다.
하지만 사람들에 따라 주관적으로 해석 가능성이 존재합니다.
그래서 자료의 수치를 객관적인 수치로 제시해야 합니다.
그 수치 중 하나가 바로 중심 위치이고, 이번 포스팅에서 중심위치로 사용되는 여러 통계 값에 대해 알아보도록 하겠습니다.
Mean(평균)
표본 평균(Sample Mean)이란 표본들을 합해서 그 값을 표본 크기로 나눈 값입니다.
그렇다면 어째서 중심 위치로 표본 평균이 적절한지 알아야겠죠?
표본 평균은 좌우의 자료의 무게가 같은 무게 중심이기 때문입니다!
즉, 표본 평균 = 무게 중심입니다.
그런데 표본 평균이 수치로써의 힘을 발휘하지 못할 때가 있습니다.
바로 이상점(Outlier)이라는 것이 존재할 때입니다.
이상점이란 관측값들이 모여 있는 곳에서 멀리 떨어져 위치하는 일부 관측값을 의미합니다.
그렇다면 이상점이 존재하면 표본 평균이 이상점이 없을 때보다 크게 커지거나 크게 작아지겠죠?
이런 경우를 이상점에 강건(Robust) 하지 않다고 합니다.
그래서 표본 평균을 구할 때 이상점이 존재하는 경우 대체 값을 사용합니다.
대체 값에는 중앙값, 절사평균, 최빈값이 존재하고 이번 글에서 모두 다 알아보도록 하겠습니다!
Median(중앙값)
표본 중앙값(Sample Median)은 자료를 오름차순 혹은 내림차순으로 나열했을 때 가운데 위치에 존재하는 값입니다.
표본 중앙값 일반식
하지만 중앙값도 취약한 부분이 존재합니다…
표본 중앙값 일반식을 잘 보시면 아실 수 있습니다.
바로 값을 구할 때 관측값을 한 개 또는 두 개만 사용하고, 자료의 정보를 다 활용하지 못한다는 점이죠…
하지만 이러한 부분을 보완해줄 수 있는 값이 존재합니다.
바로 절사평균입니다! 아래에서 알아보도록 하겠습니다~
Trimmed Mean(절사평균)
표본 평균은 이상점에 강건하지 못해서… 표본 중앙값은 자료의 정보를 다 활용하지 못해서…
이 두 값의 단점을 줄이고 장점을 올린 값이 바로 절사평균입니다!
절사란 잘라서 없애는 것을 의미하죠?
말 그대로 적절한 값을 설정하고 상위(설정한 값)%, 하위(설정한 값)%을 잘라내고 계산하는 것입니다.
표본절사평균 일반식
식을 통해 알 수 있듯이 상위 관측값, 하위 관측값을 제거하면 이상점에 강건해지고, 더해서 제거한 관측값 이외에 모든 관측값을 사용하기에 표본 평균과 표본 중앙값의 단점을 줄인 값이라고 하는 것이죠!
Mode(최빈값)
마지막으로 최빈값(Mode)에 대해 알아보도록 하겠습니다.
최빈값은 쉬운 내용이기 때문에 설명이 많이 필요하지 않습니다.
말 그대로 빈도가 가장 많은 관측값을 최빈값이라고 합니다.
그리고 최빈값은 여러 개가 나올 수 있다는 점 유의하시면 좋을 것 같습니다.
이상으로 중심 위치를 나타내 주는 값들에 대한 설명을 마치도록 하겠습니다!
긴 글 읽어주셔서 감사하다는 말씀드리며 글을 마치도록 하겠습니다.
감사합니다!
댓글남기기