개루프이득의 블로그

여론조사는 믿을만 한 것 일까? 본문

정치 관련 내용

여론조사는 믿을만 한 것 일까?

개루프이득 2020. 4. 18. 14:03

간단한 의문에서 시작되었다.

나는 학교때문에 대부분은 대구에서 혼자 살고 평균적으로 한 달에 한 번 정도를 주말을 껴서 인천 본가로 올라간다.

이번 코로나19 때문에 비교적 오래 인천에 있었고, 대구에서 이제 6년째 거주하면서 그간 많은 선거도 치뤘다.

그럴 때마다 항상 약간은 이상한 경험을 해왔다. 내가 대구에 있을 때는 6년동안 기억상으로는 거의 한 번도 여론조사 전화를 받은 적이 없었다. 하지만, 내가 선거기간에 인천만 올라가면 응답을 안 할 경우 거의 하루에 3번 이상 씩은 여론조사 전화가 내 휴대전화로 온다.

계속 거절하기도 귀찮아서 여론조사 응답을 되도록이면 꾸준히 해주는 편인데, 지역구 의원이나 지자체장 선거에 대한 여론조사면 몰라도, 대통령 또는 국정운영에 대한 여론조사 역시 대구에서는 한 번도 안 오다가 인천에 있을 때만 오는 것이 이상했고, 많은 사람들이 경험을 했겠지만, 내 거주지역(주민등록상 거주지는 대구이지만 대구 선택지 없이 인천 내에 어느 구인지 물어보는 경우가 많아서 보통은 우리집 본가 주소 기준으로 한다.), 연령대, 그리고 지지정당을 선택을 하면 "본 조사의 대상이 아니다." 또는 "해당 조사대상은 이미 여론조사가 마감되었다." 와 같은 안내를 받고 전화가 끊어지는 경우가 많았다.

사실 여론조사에서 가장 중요한 것은 임의추출인데, 그것이 어느 기관에서 하던지 절대로 완벽할 수 없다고 생각해서 여론조사는 잘 안 믿는 편이고, 나도 학교를 다니면서 많은 자치단체를 했었지만, 설문조사 결과나 학내 학보사의 여론조사결과는 상당히 보수적으로 받아드리는 편이었다. 특히, 학보사에서의 여론조사는 자신의 페이스북 페이지를 통해 링크를 공유해서 진행을 하는 경우가 많았는데, 이는 임의추출된 표본이 아닌 페이스북을 하고, 학보사에 관심이 있는 집단의 표본이 된다고 생각해서 그들이 제시하는 결과와 오차범위, 표본오차 그런 것들은 거의 믿지 않았었다.

 

말이 다른 방향으로 갔는데... 어찌되었든, 나는 적어도 우리나라에서 여론조사 조작을 어느 집단이 주도하여 하고 있다고는 믿지 않고, 믿고 싶지도 않기 때문에, 내가 한 경험들이 나름 여론조사 기관에서 표본의 임의성을 강화해주기 위한 방법이었을 것이라고 생각하고, 이에 대해서 간단하게 찾아봤다.

시작하기에 앞서서, 많은 사람들이 가장 많이 의문을 제시하는 부분은 여론조사의 응답률이 보통 5%정도, 높으면 10%가 나오는데, 어떻게 그 결과를 바탕으로 신뢰도 95%정도의 결과를 만들 수 있냐는 부분인데, 개인적으로 응답률은 신뢰도에 큰 영향을 끼친다고 생각하지 않는다. 물론 응답하는 사람들이 한 성향으로 편향이 되어있다면 문제가 될 수 있겠지만, 통계적으로 랜덤한 사람들이 응답을 거부한다고 하면 표본의 임의성에 문제는 생기지 않고, 어차피 여론조사 기관은 자신들이 원하는 수준의 표본집단을 얻을 때까지 조사를 진행할 것이기 때문이다. 단, 응답률이 여론조사하는 항목의 성향과 독립이어야 한다는 가정 아래에서 말이다. 아마, 여론조사기관들도 이 부분을 보안하려고 많은 노력을 하고 있을 것이라고 생각된다.

 

일단 내가 아는 여론조사 기관은 리얼미터와 한국갤럽 정도이니, 이 기관들의 홈페이지를 들어가서 여론조사 방법에 대한 설명이 나와있는지 찾아봤다.

먼저 리얼미터이다.

내가 못 찾는건지.... 리얼미터 홈페이지에는 자신들이 한 여론조사 결과 보도자료들만으로 가득하다. 리얼미터 배너로 있는 홈에도 보도자료들 링크로만 가득하고, 그나마 회사소개 베너에 About REALMETER라고 있는데, 여기에도 여론조사 방법에 대한 소개는 없고, 그냥 우리는 정치적 유불리에 따라 정당들이 필요한 시기에만 결과를 발표하지 않겠다 등과 같은 뻔한 얘기들로 가득하다.

일단 리얼미터의 경우는 조사의뢰를 해서 자세히 물어보면 알 수도 있겠지만, 자신들의 여론조사가 어떻게 이뤄지고 있고, 표본은 어떻게 추출하여 통계를 내는지에 대한 정보는 공개하고 있지 않는 것 같았다.

이렇게 별 소득 없이 한국갤럽 홈페이지를 찾아봤다.

한국갤럽에서는 자신들이 시행하고 있는 조사 방법들을 모두 다 간단하게 소개하고 있다. 전화조사, 면접조사, 정성조사, 온라인모바일 조사, 미스터리쇼핑, 해외조사, 옴니버스 조사, 공론조사, 데스크리서치가 있었는데, 대부분 우리가 정치적으로 접하게 되고 경험해본 조사는 전화조사이기 때문에, 전화조사에 대해서 조금 더 알아봤다.

사실 "업계최고수준의 응답률을 자랑한다." 이 부분은 잘 모르겠다. 어떻게 모든 조사기관들이 다 임의추출한 표본들에서 조사를 진행을 하는데 그 응답률이 다른 기관들보다 유의미하게 높게 나올 수가 있을지 잘 이해가 안 가는 부분이다. 그리고 드디어 내가 궁금했던 부분, 어떻게 표본 추출을 하는지에 대해 언급이 되어있는데 RDD(Random Digit Dialing) 시스템을 이용한다고 한다. 그리고 한국갤럽에서는 이에 대한 자신들의 논문자료도 공유를 하고 있다.

논문들이 그렇게 최신 논문은 아니다. 나는 "무선 RDD 전화조사의 타당성 검토 연구: 18대 대통령선거 사례 연구 (2012)"와 RDD 전화여론조사의 무응답 편향 보정방법: 2014년 지방선거 여론조사 사례연구 (2014)"의 두 편의 논문을 간단하게 봤다. (분량이 너무 많고 내 연구분야 논문도 못 읽고 있는 상황에... 다 읽어보지는 않았고 그냥 부분부분으로만 봤다.)

일단, 두 논문 모두 여론조사의 정확도를 파악한다는 것 자체가 매우 어렵다는 전제하에 시작을 한다. 그리고 아마 무선 RDD가 요즘 우리가 많이 받고 있는 여론조사 전화 인 것 같다. 첫번째 논문에서는 한국갤럽에서 시행한 무선 RDD 전화조사 결과가 그 평균값을 기준으로 어느 정도 변동성을 보이는지에 대해 분석을 한다. 그 결과 무선 RDD에서도 관심 변수의 차이를 유발할 정도의 변동성은 보이지 않았다고 주장을 한다. 이 때는 초기 무선 RDD로 무선전화 번호를 무작위 추출해서 실시하는 방식이었으며, 재밌는 부분은 통제 변수들과 관심 변수 간의 상관성을 보면, 거주지역, 성, 연령대, 원적, 총선투표정당과 지지정당, 지지후보간의 상관 정도가 비교적 높게 나왔다고 말하고 있다.

그리고 다음 논문을 보면, 시작부분에 외국논문을 인용하면서 높은 무응답률이 반드시 평향과 연결되지 않는다는 점을 이야기하고 있으며, 기존 연구 검토 부분에서 언론보도 여론조사의 대부분은 사전에 성, 연령대, 지역 기준의 할당을 부여하고, 사후 가중으로 오차를 보정하고 있다고 언급을 한다.

여기서 어느 정도 의문이 풀리는 것 같다. 일단, 필연적으로 응답률이 결과의 편향성에 영향을 끼치는 것은 아니지만, 첫번째 논문에서와 같이 경험적으로 응답률이 어느 정도 편향성으로 연관이 될 수 있다는 것을 조사기관에서 인정을 하고, 결과와 상관 정도가 높은 성, 연령대, 지역기준, 그리고 요즘 여론조사를 보면 지지정당 까지 할당을 부여하고 사후 가중으로 오차를 보정하고 있는 것으로 보인다.

쉽게 말하면, 기관에서 최선을 다해 임의추출된 표본을 뽑지만, 그 표본이 편향되었을 가능성이 있으므로, 가능한 기준들을 만들어서 그 기준들에 대해서 표본이 골고루 존재할 수 있도록, 인위적으로 표본을 조정하여 더욱 임의표본에 가깝게 만드는 것이다. 그리고 무선 RDD의 경우는 내 생각에는 거주 지역 등의 할당 기준이 생겼으므로, 무조건적인 번호 무작위 추출이 아니라, GPS 지역정보만 제공을 받아 원하는 지역에 있는 번호 중에 무작위 추출하여 전화를 거는 것이 아닐까 싶다.

 

사후 가중으로 오차를 보정하는 과정이 아마 각 조사기관들의 핵심기술이 아닐까 싶다. 그래서 그런지 이에 대한 자세한 언급은 없다. (사실 귀찮아서 저 논문 두개만 봤는데, 더 찾아보면 있을 수도 있다.)

 

그러면 어느 정도 의문은 풀린다. 응답자의 개인정보를 물어보고, 대상자가 아니라고 하는 부분 역시 기관에서 직접 정한 임의표본 할당 기준에 맞추기 위한 작업이었다고 볼 수 있을 것 같다. 이는 겉보기에는 표본을 조사기관 마음대로 조절하는 것 같지만, 실제로는 경험적으로 모인 데이터에 기반하여 치밀하게 계산된 표본 기준에 맞춰서 최대한 임의표본에 가깝게 하는 작업이 되는 것이다.

그래도 풀리지 않는 의문은 아직 남아있다.

1. 한 번 여론조사 전화가 오면 응답을 하지 않는 이상 왜 한 동안 계속 전화가 올까?

2. 지역별 할당 기준이 있을 것이고, 난 지난 6년간 대구에서 훨씬 오랜 시간을 보냈는데 왜 대구에 있을 때는 전화가 오지 않았던 것일까?

뭐, 1번의 경우는 솔직히, 전화를 안 받거나 거절하면 무응답으로 분류하고 다른 무작위 번호를 추출하는 것이 맞다고 생각되는데 아직 왜 그런 것인지 잘 모르겠고, 2번에 대해서는 나 한 사람의 표본이기 때문에 내가 굉장히 특수한 경우였다. 그렇게 생각하는 것이 최선일 것 같다.

 

전 국민의 생각은 아무도 알 수가 없다. 심지어 전 국민 중 60%이상이 의견을 표출하는 총선이나 대선이 끝나면 항상 패배한 진영에서 부정선거에 대한 음모론이 나올 정도로 때로는 사실이라고 해도 사람에 따라 믿지 못하는, 어쩌면 믿기 싫어하는 경우도 있다.

내가 찾아본 결과로는 그래도 여론조사 기관들은 그 불확실성을 최대한 줄이기 위해 노력하고 있다는 것이다.

어차피 여론조사 결과를 100% 믿는 사람들은 없을 것이다. 우리는 그냥 그 조사 결과를 참고용으로만 쓰면 된다. 우리가 주변에서 체감하는 결과와 다를 지라도... 여론조사 결과가 편향되었을 수도 있고, 내 주변 집단이 편향되었을 수도 있다. 난 후자의 가능성이 더 높다고 본다.

반응형
Comments