[Statistics] 피어슨 상관 관계
Purpose of this Posting
- 피어슨 상관 관계에 대해 알아봅니다.
피어슨 상관 계수 (Pearson Correlation Coefficient)
—
피어슨 상관 계수(Pearson Correlation Coefficient)는 공분산을 표준화 한 값이고, 값의 범위는 -1부터 1 사이입니다.
피어슨 상관 계수의 일반식과 간편식에 대해 알아보도록 하겠습니다.
피어슨 상관 계수 일반식
피어슨 상관 계수 간편식
피어슨 상관 계수 성질
—
r의 값의 범위는 (-1 <= r <= 1)이고, 양 끝 값인 1과 -1일 때의 완벽한 정상관과 완벽한 역상관의 형태는 어떠한지 그래프를 통해 알아보도록 하겠습니다.
완벽한 정상관 -> r = 1
완벽한 역상관 -> r = -1
그 외의 여러 가지 성질들을 나열해보도록 하겠습니다.
- 기울기를 갖는 직선에 값들이 모일수록 절댓값 r은 1에 근사합니다.
- 위 두 그래프처럼 모든 값들이 직선에 위치하게 되면 절댓값 r은 1입니다.
- r 값이 양수이면 양의 상관관계가 존재하는 것입니다.
- r 값이 음수이면 음의 상관 관계가 존재하는 것입니다.
- 절댓값 r이 0에 근사하면 상관 관계가 존재하지 않는다고 합니다. (But, 직선 관계가 존재하지 않는 것일 뿐입니다.)
나열된 성질 5번의 이해를 돕기 위해 추가 설명을 해보도록 하겠습니다.
이 그래프는 제가 이전 작성글인 「공분산 & 상관계수」에서 설명드린 그래프입니다.
이 그래프에서 알 수 있다시피 r 값이 0에 근사하므로 직선 관계가 존재하지 않습니다.
허나 곡선 관계는 존재합니다.
즉, | r | 값이 0에 근사하면 상관관계가 존재하지 않는다고 하지만 직선 관계가 존재하지 않는 것일 뿐입니다.
피어슨 상관 계수를 사용 시 주의할 점
—
피어슨 상관 계수를 사용할 때 주의해야 할 점이 있습니다.
그것은 바로 상관 계수의 값이 같아도 두 변수 간의 관계가 실제로 다를 수도 있습니다.
총 4 개의 예시를 통해 알아가 보도록 합시다!
선형 관계
비선형 관계 - 1
비선형 관계 - 2
비선형 관계 - 3 이렇게 상관 계수 값이 같아도 두 변수 간의 관계가 실제로 다를 수 있습니다. 그래서 이러한 문제점 때문에 상관 계수를 사용하기 전 사전에 확인해야 할 부분이 존재합니다. 첫 번째는 이상치가 존재 유무를 확인하고 존재한다면 상관 계수 값이 유용하지 않을 확률 높다는 것입니다. 두 번째는 두 변수 간의 관계가 비선형인 경우 상관관계의 값은 유용하지 않다는 것입니다. 이렇게 해서 피어슨 상관 계수에 관한 글을 마무리 짓도록 하겠습니다. 이 글을 보신 분들에게 도움이 되었으면 정말 뿌듯할 것 같습니다. 긴 글 읽어주셔서 감사합니다! 다음에도 유익한 글 작성할 수 있도록 계속해서 노력해 나가겠습니다!
댓글남기기