라디오 청취율 조사 시즌이 되면,
모든 라디오 방송에서 02로 시작되는 전화가 오면 끊지 말고 일단 받아서 청취율 조사면 자신의 방송을 찍어달라는 말들을 합니다.
왜 그런 말들을 할까요? 그 방송을 듣고 있던 사람 중 청취율 조사 전화를 받는 사람은 정말 정말 극소수 일텐데 말입니다.
다들 아는 겁니다. 방송을 듣고 있던 사람들 중 한 두 명만 평소에 끊던 전화를 끊지 않고 받아서 자신의 프로그램에 투표해 주는 것이 엄청나게 도움이 된다는 것을 말입니다.
전화 조사는 응답률이 낮기 때문에 왜곡을 쉽게 만들어 낼 수 있습니다. 그리고 그 왜곡을 쉽게 이용할 수도 있습니다. 매번 여론조사에서의 지지율과 선거결과가 달라지는 이유가 여기에 있습니다.
낮은 응답률 만으로 발생하는 왜곡을 최대한 쉽게 보여 드리겠습니다.
가정 조건은 직접 달았고, 계산은 귀찮아서 GPT 시켰습니다.
6개의 구분되는 집단이 있다. 각 집단은 a, b, c, d, e, f로 구분된다.
a 집단은 500,000명, b 집단은 1,500,000명, c 집단은 3,000,000명이다.
d 집단은 3,000,000명, e 집단은 1,500,000명, f 집단은 500,000명이다.
총 10,000,000명이 유권자 모집단을 이룬다.
이 중 1,000명을 무작위로 뽑아 '가나다'정당과, '마바사'정당의 지지율을 알아보는 전화 조사를 하려고 한다.
전체 평균 조사 응답률은 15%이다.
즉, 1,000명을 조사하기 위해 약 6,667명에게 전화 연락이 닿았고 그 중 1,000명으로부터 최종까지 응답을 받았다.
각 집단별 응답률은 다르다.
e집단과 f집단의 응답률은 다른 집단보다 다소 높다.
e집단과 f집단은 개인 미디어 등의 영향을 좀 더 많이 받고 지지율 조사 등에 보다 적극적으로 응해야 한다는 공감대가 형성되어 있다고 가정해 보자.
전체 응답률은 15%이다.
f 집단의 응답률은 25%, e 집단의 응답률은 20% 였다. 나머지 a,b,c,d 집단의 평균 응답률은 13.44%가 된다.
a,b,c 집단은 전부 '가나다' 정당을 지지한다.
d,e,f 집단은 전부 '마바사' 정당을 지지한다.
이렇게 가정하고 가상의 조사를 진행하면, 최종 조사 표본 1,000명에 각 집단이 얼마나 포함되는지와 함께 지지율이 어떻게 왜곡될 수 있는지를 살펴볼 수 있다.
실제 지지율은 50 대 50이겠지만 응답률 차이만으로 지지율 격차에서 10% 넘는 차이를 만들어 낼 수 있습니다.
응답률이 왜곡을 만들어 내지 않으려면, 모집단을 구성하는 각 집단간 응답률과 관련한 여러 가정들에 대해 동질성을 가정할 수 있어야 합니다. 그러나 현실적으로 가능하지 않습니다. 그간 선거와 여론조사의 결과가 너무도 다르게 나타나는 이유에 위와 같은 이유도 포함되었을 것 같다는 것이 제 추측입니다.
통계가 불신을 받고 있는 것이 아쉽습니다. 아무쪼록 통계가 역할을 제대로 하는 날이 오길 바랍니다.