[Statistics] 편향(feat. 모집단 & 표본)

2021-12-23 2 분 소요

Purpose of this Posting

편향에 대해 알아봅니다.

모집단 & 표본 (Population & Sample)

표본 추출 편향을 설명하기 앞서 모집단과 표본이 무엇인지 짧고 굵게 알아보겠습니다!

모집단 (Population) : 조사(연구) 대상이 되는 모든 개체의 집합을 모집단이라고 합니다.

표본 (Sample) : 모집단으로부터 선택된 일부의 개체를 표본이라고 합니다.

편향 (Bias)

많은 비율의 모집단은 크기가 매우 크기에 전체를 조사하기 힘듭니다. 물론 조사하는데 비용도 많이 듭니다.

그래서 모집단에서 일부의 개체를 추출한 표본을 갖고 모집단에 관해 추측합니다.

이때 모집단에서 일부의 개체를 추출한 표본이 모집단을 대표하지 못할 때 편향(Bias)가 발생합니다.

편향에는 여러 가지 편향이 있지만 이번에는 표본 추출 편향, 무응답 편향, 응답 편향

이렇게 총 3가지 편향을 알아보도록 하겠습니다.

[편향] - 표본 추출 편향 (Sample Selection Bias)

표본 추출 편향(Sample Selection Bias)는 확률적으로 표본이 모집단을 대표하지 못한 경우에 발생하는 편향입니다.

표본을 설정할 때 어떠한 체계적인 경향이 개입되어서 발생됩니다.

이 문제는 표본 설정 과정에서 체계적인 경향이 개입되어 발생하기에, 표본의 크기를 키운다 해서 해결되는 것이 아닙니다.

아래에서 대표적 사례를 들어 표본 추출 편향의 이해를 돕도록 하겠습니다.

[편향] - 무응답 편향 (Non-Response Bias)

무응답 편향(Non-Response Bias)는 응답한 사람들과 응답하지 않은 사람들 간의 체계적인 차이로 인해 발생하는 편향입니다.

즉, 무응답자의 생각은 응답자와 다를 수 있기에 응답자가 모집단을 대표하지 못해 발생하는 것입니다.

더해서 무응답의 비율이 높은 경우 무응답 편향이 발생할 가능성을 고려해야 합니다.

앞서 말한 것처럼 무응답자와 응답자 간의 생각이 다른 경우 정반대의 결과가 나오기 때문입니다.

무응답 편향 또한 아래에서 대표적 사례를 들어 표본 추출 편향의 이해를 돕도록 하겠습니다.

[편향] - 응답 편향 (Response Bias)

응답 편향(Response Bias)는 설문 혹은 대면 조사 등에서 조사원이 질문할 때의 어조나 태도, 설문지의 문구, 디자인 등이 응답에 영향을 주는 경우 발생하는 편향입니다.

응답 편향 사례

대통령 선거나 국회의원 선거와 같은 선거에서 후보자의 이름의 순서가 선거 결과에 영향을 미침.

1936년 미국 대통령 선거 (Gallup vs Literary Digest)

(Subtitle : 표본 추출 편향 사례와 무응답 편향 사례)

1936년 미국 대통령 선거에서 규모가 매우 컸던 리터러리 다이제스트는 어마어마한 양인 1000만 장의 여론 조사 용지를 유권자들에게 돌렸고, 1000만 장의 여론 조사 용지 중 230만 장을 회수하였습니다.

이렇게 회수한 230만 장의 여론 조사 용지를 통해 대통령 선거에서 Alfred Landon의 승리를 예측했습니다.

반면에 리터러리 다이제스트에 비해 규모가 작았던 갤럽은 리터러리 다이제스가 돌린 여론 조사 용지인 1000만 장에 비해 현저히 적은 1500명을 대상으로 조사하였습니다.

갤럽은 조사 내용을 바탕으로 리터러리 다이제스트의 예측 결과와 다른 Franklin Roosevelt의 승리를 예측하였습니다. 그런데 놀랍게도 1936년 미국 대통령 선거의 당선자는 Franklin Roosevelt가 되었습니다.

어째서 리터러리 다이제스트는 예측을 실패하고 갤럽은 예측을 성공하였을까요?

이때 리터러리 다이제스트의 예측 과정에서 표본 추출 편향과 무응답 편향 둘 다 발생하였기 때문입니다.

우선 표본 추출 편향이 어떻게 이루어졌는지 설명하도록 하겠습니다.

리터러리 다이제스트는 자동차를 소유하거나 자택에 전화가 있는 등 부유한 사람들의 주소록을 이용해 설문 조사를 진행했습니다.

이러한 이유로 당시의 공화당의 지지자가 많았던 부유한 사람들인 고소득층과 중산층의 조사는 반영되었고, 민주당의 많은 지지를 받는 비교적 가난한 이들은 조사에 참여하지 못했던 것입니다.

이렇게 해서 리터러리 다이제스트는 표본 추출 편향이 발생한 것입니다.

반대로 갤럽은 다양한 계층의 사람들을 대상으로 조사를 진행했기에 예측을 성공할 수 있었던 것입니다.

이러한 이유로 리터러리 다이제스는 표본 추출 편향이 발생하였고 올바른 예측을 할 수 없었습니다.

다음으로는 무응답 편향이 어떻게 이루어졌는지 설명하도록 하겠습니다.

리터러리 다이제스트는 1000만 장의 설문 조사를 통해 230만 장을 회수하였으므로 무응답자는 770만 명, 응답자는 230만 명입니다.

무응답자의 비율은 응답자의 비율보다 크고, 저소득층이나 고소득층은 응답을 거부하는 경향을 보여 중산층의 의견을 과도하게 예측 결과에 반영되었습니다.

또한 Franklin Roosevelt의 지지자들은 거의 응답하지 않았습니다. 따라서 응답자들은 모집단을 대표하지 못하는 무응답 편향이 발생한 것이었습니다.

이렇게 해서 편향의 개념과 표본 추출 편향, 무응답 편향, 응답 편향에 대해 알아보았고 긴 글을 읽어주셔서 감사하다는 말씀드리며 글을 마치도록 하겠습니다. 감사합니다!

Twitter Facebook LinkedIn

CKtrace

[Statistics] 편향(feat. 모집단 & 표본)

모집단 & 표본 (Population & Sample)

편향 (Bias)

[편향] - 표본 추출 편향 (Sample Selection Bias)

[편향] - 무응답 편향 (Non-Response Bias)

[편향] - 응답 편향 (Response Bias)

응답 편향 사례

1936년 미국 대통령 선거 (Gallup vs Literary Digest)

(Subtitle : 표본 추출 편향 사례와 무응답 편향 사례)

공유하기

댓글남기기

참고

[AI] 활성화 함수와 활성화 함수의 사용 목적

[AI] 퍼셉트론과 퍼셉트론의 한계

[AI] 최적화 개념과 경사 하강법 원리 도출 과정

[AI] 계층형 신경망