2018년 11월 19일 (월)
전체메뉴

선거 예측의 신호와 잡음- 박형주(국가수리과학연구소장)

  • 기사입력 : 2016-04-15 07:00:00
  •   
  • 메인이미지

    얼마 전에 미국에 갔다가 여러 방송에서 단골로 나오는 얼굴을 보고 ‘아 미국도 선거철이구나’하고 문득 깨달았다. 영화배우도 아니고 가수도 아닌 이 사람, 네이트 실버는 빅데이터 방식으로 선거예측을 귀신같이 해내서 유명해진 사람이니까.

    원래 실버는 야구 경기의 결과를 예측하는 일이 직업이었다. 야구는 통계의 경기라는 속설도 있듯이 각종 통계에 입각해서 전략을 짜는 게 중요한 스포츠여서 이런 분석이 통하는 것이다. 그러던 차에 같은 방식으로 선거예측도 할 수 있을 것 같아서 시도했다가 대박을 터트렸다.

    지난 2008년 미국 대통령 선거가 치러질 때 50개 주별로 선거결과 예측을 해서 49개 주에서 완벽히 맞힌 것이다. 이제는 정치 분석가 대접을 받는 경지에 올라서 선거 때마다 언론에 단골로 나오는 유명 인사가 됐다. 선거예측을 하는 수학적 방법을 설명한 그의 2012년 책 ‘신호와 잡음’은 뉴욕 타임즈 베스트셀러 15위 안에 연속 13주 동안 들었다.

    미국은 대통령 선거를 간접선거로 치르기 때문에 절차도 복잡하고 선거 예측도 아주 힘들다. 50개 주별로 선거인단 선출결과를 예측해야 하는 데, 주마다 전통도 다르고 절차도 다르니까. 이런 악조건 속에서 실버가 2008년에 딱 하나 틀린 게 인디애나 주인데, 이 주는 양 후보 간에 격차가 영점 몇 퍼센트 정도에 불과했다. 같은 해 미국 상원 선거는 35개 모두를 완벽하게 맞혔다. 이런 이유로 2009년엔 타임지가 선정한 ‘세계에서 가장 영향력 있는 100인’에 들기도 했다. 이런 경험을 축적하더니 2012년 오바마 재선 시에는 50개 주 모두에서 완벽한 결과 예측에 성공했다. 올해는 운이 다했는지, 뉴햄프셔는 정확하게 맞혔는데, 아이오와의 공화당 예선은 트럼프가 크루즈를 박빙으로 이기는 것으로 잘못 예상했다.

    빅데이터 방식의 미래 예측은 사람들의 주관적인 생각조차도 데이터에 반영되어 그 속에 숨어있다는 관점에서 출발한다. 아무 질서도 없이 마구잡이로 모여 있는 것처럼 보이는 데이터에 질서를 부여하고 유의미한 결론을 이끌어낸다.

    이 관점의 대전제는 축적된 데이터의 풍부함인데, 예전에는 그 정도의 방대한 데이터가 축적된 게 없었다. 데이터 쌓는 것도 공짜가 아닌데 필요성을 못 느끼니 데이터를 쌓지 않은 탓이다. 그런데 하드디스크나 클라우드 같은 정보저장 장치들이 저렴해져 비용을 걱정하지 않게 됐다. 게다가 이렇게 쌓인 데이터로부터 결론을 이끌어내는 수학 이론이 크게 발전하면서 상황이 바뀌었다. 데이터가 많이 쌓였고 그걸 분석하는 수학이 발전해서 쌍두마차가 완성된 것이다.

    방대한 데이터로부터 유의미한 결론을 끄집어낸다는 게 매력적으로 들리지만, 어떤 수학을 써서 이걸 하는 걸까? 수학의 최적화 이론이 주효하게 쓰인다. ‘한 점에서 다른 점까지 가는 제일 빠른 길이 무엇인가?’ 같은 질문을 다루는 분야다. 통상이라면 이 질문의 답은 ‘두 점을 잇는 직선’이다. 다른 곡선으로 된 길은 더 길 테니까. 그렇지만 두 점 사이에 깊은 웅덩이가 있다면 직선 길이 없을 테니 답이 바뀐다.

    선거예측을 하려면, 선거에 영향을 끼치는 다양한 요소들을 측정하고 나서 현재 상황과 가장 유사한 이전 상황을 찾아내야 한다. 인터넷 검색도 흡사하다. 그러니 예측이나 검색이란 게 모두 가장 유사한 것을 찾는 과정이고 그래서 최적화 이론의 적용 대상이 되는 것이다.

    뜨겁게 달아오르던 총선이 끝났다. 해외에서는 각종 수치화된 데이터로 선거결과를 예측하는 게 유행한지 꽤 됐지만, 우리나라에서는 아직 광범위하게 쓰이는 것 같진 않다. 우리나라의 문화와 사회적 상황까지 반영하는 예측 모델은 언제쯤 만들어질까.

    박형주 (국가수리과학연구소장)

  • < 경남신문의 콘텐츠는 저작권법의 보호를 받는 바, 무단전재·복사·재배포를 금합니다. >
  • 페이스북 트위터 구글플러스 카카오스토리