• 2020 미국 대선, 예상했던 ‘산사태’가 없었던 이유… 구글 검색데이터에 여전한 백인우월주의

    2020년 12월 제 123호

  • ‘산사태(Landslide)처럼 바이든 후보 쪽으로 표가 쏠릴 것이다.’

    미국 여론조사 회사들은 대부분 대선을 앞두고 ‘산사태’를 예고하고 있었다. ▲브렉시트와 ▲2016년 대선 결과를 예측했던 인공지능도 바이든이 큰 표 차이로 낙승할 것을 예견했다. 도박사들도 바이든의 압도적 승리에 돈을 거는 쪽이 대부분이었고, 영국의 주간지 이코노미스트는 바이든이 이길 확률을 96%라고 점쳤다.

    비록 결과는 맞았지만 여론조사 회사들은 물론 그들의 주장을 보도했던 현지 언론들의 표정은 그리 밝지만은 않다. 예상과 달리 트럼프 대통령 지지자들이 많았고, 특히 주(state) 또는 카운티(county) 단위로 들어가면 예측이 완전히 빗나간 경우가 많았기 때문이다. 폭스뉴스 같은 공화당 성향의 언론뿐만 아니라 뉴욕타임스처럼 트럼프 대통령을 공격했던 언론사들도 2020년 대선에 대한 여론조사의 문제점을 분석하는 글들을 내놓고 있다. 여론조사 회사들은 2016년에도 트럼프 대통령에 대한 지지자들의 표를 과소평가했다. 대체 뭐가 잘못된 것일까?

     기사의 0번째 이미지
    ▶빗나간 결과

    대선일인 11월 3일로부터 열흘 이내에 실시된 여론조사 결과들을 보면 바이든 당선인은 미국 전역에서 8%포인트 정도의 표 차이를 보이고 있었다. 폭스뉴스는 8%P, CNN은 12%P 바이든의 우세를 점쳤다. 월스트리트저널과 NBC의 합동 여론조사는 10%P로 바이든 후보의 승리를 점치고 있었다. 쉽게 말해 바이든이 미국 전역에서 55% 정도의 지지를 받고, 트럼프가 45% 정도의 지지를 받는다는 예상이라고 볼 수 있었다. 그러나 결과적으로 바이든 당선인은 트럼프 대통령을 5%P 차이로 이기는 데 그쳤다. (여론조사: 8~12%P 차이로 바이든 우세, 실제 결과: 5%P 차이로 바이든 승리)

    미국 전역이 아니라 주 단위로 들어가면 여론조사와 실제의 차이가 조금 더 확실하게 드러난다. 위스콘신주의 경우 여론조사들은 10%P 이상의 차이로 바이든이 압승할 것이라고 예상했다. 그러나 결과를 열어보니 표 차이는 1%P 미만에 불과했다. (여론조사: 10%P 이상 바이든 우세, 실제 결과 : 1%P 미만 차이로 바이든 승리) 플로리다 같은 경우는 바이든이 2%P 앞설 것으로 예상됐지만, 결과적으로 트럼프가 3%P 앞선 표를 획득해 선거인단을 모두 가져갔다. (여론조사: 2%P 바이든 우세, 실제 결과: 3%P 차이로 트럼프 승리)

    여론조사 때문에 민주당은 잘못된 판단을 하기도 했다. 초박빙으로 여론조사에서 나타났던 오하이오 아이오와 같은 주들에 막판 유세를 집중한 것이 그것이다. 선거 열흘 전만 해도 오하이오는 1%P 미만, 아이오와는 1%P 정도로 아주 미세하게 트럼프가 여론조사에서 이기고 있었다. 이 때문에 바이든 후보 측에서는 막판에 다른 지역에서의 유세를 멈추고 이 두 곳을 집중 공략했다. 여론조사상으로는 두 곳에서 승리할 경우 그야말로 ‘산사태’처럼 선거인단을 쓸어올 수 있기 때문에 승리에 쐐기를 박겠다는 계산이 깔려 있었던 것이다. 그러나 개표결과 두 지역에서는 트럼프가 모두 8%P 이상의 압도적 우위를 기록했다. (여론조사: 1%P 바이든 우세, 실제 결과: 8%P 차이로 트럼프 승리) 민주당은 또 사우스 캐롤라이나 주 상원의회에서 이길 가능성이 있다고 보고 여기에 전력을 다했으나, 결국 안전하다고 생각했던 하원을 포함해 의석을 많이 잃고 말았다.

    여론조사들은 트럼프 지지자들의 표심을 과소평가하는 경향이 두드러졌다. 2016년과 비슷한 패턴이다. 민주당을 위해 일했던 데이터 사이언티스트 데이비드 쇼어는 CNBC와의 인터뷰에서 “올해는 여론조사 기관에게는 매우 좋지 않은 한 해였다”고 평가했다. 뉴욕타임스는 “언론사들이 앞으로는 여론조사 결과를 어떻게 보도해야 할지에 대해 재평가하는 작업을 하고 있다”고 전했다.

     기사의 1번째 이미지
    ▶구글 검색데이터는 무엇을 말하고 있었나

    2016년 클린턴 후보의 대선 패배 이후 구글의 데이터사이언티스트로 일했던 세스 스테판 다비도비치가 낸 책 <모두가 거짓말을 한다(Everybody Lies)>에는 여론조사에 잡히지 않는 미국인들의 어두운 면모가 구글 검색데이터에는 드러났다는 점이 적혀 있다. 예를 들면 ‘깜둥이(nigger·흑인에 대한 인종차별적 발언)’라는 단어를 많이 검색했던 카운티에서 트럼프 대통령의 지지가 많았다는 사실이다. 여론조사원에게 ‘깜둥이’라는 단어를 쓸 수 없지만 구글 검색에는 마음 놓고 ‘깜둥이’라는 단어를 쓰는 사람들이 있고, 그런 사람들일수록 트럼프에 대한 지지도가 높았다는 얘기다. 또한 낙태에 반대하는 검색을 많이 하는 지역일수록 트럼프에 대한 지지가 높았다.

    이를 바탕으로 2016년 트럼프 대통령의 당선은 흑인 대통령이 동성연애자들의 결혼을 허용하고, 중국의 도전에 제대로 대처하지 않는 모습을 보고 화가 난 백인 유권자들이 트럼프라는 인물에 표를 몰아준 결과라는 가설이 가능했다. 실제로 CNN에 따르면 버락 오바마 미국 대통령은 대선 이후 출간되는 <약속의 땅>이라는 자서전에서 “내가 미국에서 태어나지 않았고 그래서 위법한 대통령이라는 주장을 퍼뜨리기 시작할 때 트럼프는 (대중들의 불만이 시작될 것이라는 점을) 잘 알고 있었다”며 “‘백악관의 흑인’에게 겁먹은 수백만의 미국인들에게 트럼프는 인종적 우려에 대한 묘약을 약속한 것”이라고 지적했다.

    이 가설이 또 한 번 맞을 수 있을지 확인할 수 있는 시기는 2020년이었다. 그리고 구글 검색을 통해 수많은 미국 사람들이 바이든에 대해 불리한 음모론과 비방성 글들을 찾고 있었다는 점이 나타났다. 예를 들어 지난 10월 17~25일 일주일 동안 바이든과 관련된 검색어에는 1위부터 4위까지가 바이든 후보에게 불리한 내용의 연관검색어 들이었다. 1위 토니 보불린스키 (바이든 일가의 차이나게이트와 연관돼 있다는 의혹과 연관된 인물) 2위 셰일가스 수압파쇄법(fracking) (바이든이 셰일가스 채취를 금지하겠다는 선언과 관련된 검색어) 3위 조 바이든 슈퍼약탈자 (마지막 대선토론회에서 트럼프가 ‘바이든은 흑인들이 약탈자라고 했다’라며 근거 없이 뒤집어씌운 발언을 했는데, 사람들은 그 진위여부에 대해 검색을 많이 한 것으로 나타남) 4위 조 바이든이 방금 선거에서 졌다 (대선 토론에서 바이든이 공화당 탓을 하고 나서 침묵이 흐르자 “저걸로 바이든은 선거에서 졌다”라는 인터넷 글들이 많이 올라왔는데, 그걸 사람들이 많이 검색한 것으로 추정됨)

    반면 트럼프에 대해서는 화제성 검색어들이 연관검색어로 등장했다. 1위 레슬리 스탈 (CBS 선데이모닝 앵커, 트럼프 인터뷰하다가 트럼프가 질문이 마음에 안 든다며 인터뷰를 거절한 인물) 2위 50센트 (래퍼. 대선 막판에 트럼프 지지를 선언했다가 철회함) 3위 보랏 (영국 배우 사샤 배런 코헨이 트럼프를 비판하는 영화 <보랏2> 예고편을 찍었는데, 이를 검색한 것으로 보임) 4위 코요테 (트럼프가 마지막 토론 도중 ‘코요테들이 멕시코에서 어린이들을 납치해 왔다’라고 말했는데, 몇몇 민주당 정치인들이 “코요테가 어떻게 사람을 납치하냐”라고 공격했고, 이를 본 트럼프 지지자들은 “코요테는 납치범들을 말하는 은어다. 그것도 모르냐”면서 인터넷에서 민주당 지지자들을 공격했음)

    바이든에 대해서는 불리한 구글 검색이 많았고, 트럼프에 대해서는 화제성 질문이 많았다는 사실은 여전히 전화통화를 통해 이뤄지는 여론조사와 달리 소셜미디어와 구글 검색 앞에 사람들이 더욱 솔직하게 본 모습을 드러낸다는 점을 짐작케 한다.

     기사의 2번째 이미지
    ▶여론조사가 틀린 이유에 대한 여러 분석들

    여론조사가 틀린 이유에 대해서는 미국 현지에서 다양한 분석들이 나오고 있다. 종합해 보면 이렇다.

    첫째, 응답률이 떨어진다는 것이 가장 큰 문제다. 퓨리서치센터(Pew Research Center)에 따르면 오늘날 여론조사를 실시할 경우 응답하는 사람들은 6%에 불과하다. 1980년대에는 여론조사 담당자들이 사람들을 붙잡고 물어보면 절반가량의 사람들이 응답을 했었다. 그러나 인터넷과 모바일이 발달한 지금, 응답률이 10%도 되지 않는다는 점은 대선 같은 이벤트에 여론의 전체적 의견을 확보하기 훨씬 어려운 환경이라는 것을 의미한다.

    둘째, 구글 검색데이터에서 보듯, 트럼프를 지지하고 공화당을 지지하는 미국 유권자 67%가량의 백인들은 여론조사와 같은 대화형태의 조사에 응답하는 게 아니라 상대방이 직접 보이지 않는 인터넷을 통해 자신들의 의견을 표출하고 있는 것으로 보인다.

    특히 트럼프 대통령은 언론기관들을 믿지 말라는 메시지를 자신의 트위터 등을 통해 계속 지지자들에게 보내왔다. 여론조사 담당자가 CNN NYT 등의 언론기관 여론조사라는 점을 밝혔다면, 트럼프 지지자들은 이 조사에 응하지 않았을 가능성이 있다. 민주당 여론조사 담당자인 폴 매슬린은 뉴욕타임스에 “배경이 있다면, 그들(트럼프 지지자들)과 아예 전화통화가 안 된다는 점”이라고 말했다. 특히 조지 플로이드 사망 사건 이후 트럼프 지지자들에 대한 대중들의 비난여론이 커졌던 점도 그들이 대놓고 자신의 정치적 성향을 이야기하기 힘들게 했던 환경이었다는 분석도 뉴욕타임스는 내놓았다.

    셋째, 코로나 바이러스의 영향이 있었을 것이라는 추측도 가능하다. 일단 트럼프 대통령이 코로나19 대응에 실패했다는 인식을 갖고 있는 민주당 지지자들이 여론조사 응답을 많이 했을 수 있다. 그러나 실제 투표는 여론조사만큼 덜했을 수 있다. 여론조사는 주로 전화를 통해 이뤄지지만, 투표는 현장에 가야 하거나 우편을 통해 가능하기 때문에 자신의 의사를 표시하는 방법이 통계적으로 차이가 났을 수 있다는 가설이다. 특히 투표소 현장에 나타났던 사람들 중에는 트럼프 지지자들이 많았다는 점이 이런 가설에 신빙성을 더해준다. 플로리다주의 경우 민주당원이 공화당원보다 1.5%P 많지만 투표소에 실제로 나타난 사람들은 공화당 지지자들이 민주당 지지자들보다 2%P 많았던 것으로 나타났다. ▶대안은 무엇일까

    여론조사 기관들은 2016년의 오류를 극복하기 위해 2020년에는 조사기법을 더욱 발전시켰다고 주장해 왔다. 대표적인 개선방법이 백인 유권자들을 의도적으로 여론조사에 더 많이 포함시키는 것이었다. 그러나 그것만으로는 정확한 여론을 조사해 내기 어렵다는 사실이 이번에 증명된 것이나 다름없다. 그렇다면 앞으로 여론조사 기관들은 어떤 방법을 취할까.

    뉴욕타임스는 이에 대한 몇 가지 방법을 취재해서 소개했다. 첫째는 여론조사를 할 때 길게 대화하지 않는 것이다. 길게 대화하여 조사하다 보면 별로 여론조사에 시시콜콜하게 대답하고 싶지 않은 사람들이 걸러져 버리기 때문이다.

    실제로 이 방법을 통해 앤 셀저라는 여론조사원은 아이오와에서 트럼프가 이길 것이라는 점을 정확하게 조사해 내기도 했다. 또 한 가지 방법은 소셜미디어를 활용하여 페이스북 메신저 등으로 짧게 ‘누구에게 투표할 것인가’를 묻는 것이다. 그럼에도 근본적인 문제는 남는다. 100명의 유권자에게 물으면 6명이 응답하고 있고, 갈수록 응답률이 떨어지는 상황 속에서 여론조사는 어떻게 충분한 모수를 확보할 수 있는지의 숙제가 남은 것이다.

    [신현규 매일경제 실리콘밸리 특파원]

    [본 기사는 매경LUXMEN 제123호 (2020년 12월) 기사입니다]
    [ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]
매일경제
맨위로