(출처-조선일보
빅데이터 시대, 정보는 대부분 '소음'… 좋은 예측은 의미있는 '신호'만 포착
미국 대선 예측해 맞힌 네이트 실버
"대범하지만 고집 센 고슴도치보다 신중한 여우가 더 나은 예측을 한다"
신호와 소음
네이트 실버 지음|이경식 옮김
더퀘스트|764쪽|2만8000원
미래를 예측한다는 전문가들은 대체로 둘 중 하나다. '고슴도치'거나 '여우'거나. 고슴도치는 동전 던지기(확률 50%)에도 못 미치는 적중률을 보여주는데 대범하고 고집이 세다. 여우는 신중하며 이론보다 관찰에 의존한다. 의미 있는 신호를 포착하려면 어느 쪽에 귀를 기울여야 할까.
현실에서는 '잡음'이 '신호'를 압도한다. 우리는 날마다 2.5퀸틸리언(quintillion·조의 1만배) 바이트의 정보를 생산하고 있지만 대부분은 소음이다. 9·11 테러, 글로벌 금융위기, 후쿠시마 원전 사고…. 빅 데이터 시대에도 예측은 빗나갔고 재앙이 닥쳤다.
2008년 미국 대선 결과를 정확히 맞혀 유명해진 '21세기 예언자' 네이트 실버(36·Silver)는 예측의 성패를 다룬 이 책에서 "지식이 아무리 넘쳐나도 우리가 실제로 아는 것과 안다고 생각하는 것 사이의 격차는 점점 벌어지고 있다"고 썼다.
야구는 모든 예측의 모델이다. 시카고대 경제학과 출신으로 메이저리그 승부 예측 시스템 '페코타(PECOTA)'를 개발한 그는 2006년 보스턴 레드삭스 2루수 더스틴 페드로이아가 최고의 선수가 될 것으로 전망했다. 키 177㎝에 머리숱 적고 올챙이배를 지닌 이 선수가 그렇게 되리라고 예상한 전문가는 없었다. 페드로이아는 이듬해 아메리칸리그 신인상, 그다음 시즌에는 리그 MVP를 차지했다.
좋은 예측 시스템엔 통계 파악 말고도 두 가지가 더 필요하다. 실력과 운을 분리해야 하고 '노화곡선(Aging Curve)'을 이해해야 한다. 투수 승패 기록을 예측할 경우 지난 시즌의 승패 수보다 삼진·볼넷 수로 기준을 삼는 게 유용하다. 변동성이 적기 때문이다. 야구선수는 기량이 20대 말에 극점을 찍고 30대 중반이 되면 하락세가 두드러진다.
네이트 실버 지음|이경식 옮김
더퀘스트|764쪽|2만8000원
미래를 예측한다는 전문가들은 대체로 둘 중 하나다. '고슴도치'거나 '여우'거나. 고슴도치는 동전 던지기(확률 50%)에도 못 미치는 적중률을 보여주는데 대범하고 고집이 세다. 여우는 신중하며 이론보다 관찰에 의존한다. 의미 있는 신호를 포착하려면 어느 쪽에 귀를 기울여야 할까.
현실에서는 '잡음'이 '신호'를 압도한다. 우리는 날마다 2.5퀸틸리언(quintillion·조의 1만배) 바이트의 정보를 생산하고 있지만 대부분은 소음이다. 9·11 테러, 글로벌 금융위기, 후쿠시마 원전 사고…. 빅 데이터 시대에도 예측은 빗나갔고 재앙이 닥쳤다.
2008년 미국 대선 결과를 정확히 맞혀 유명해진 '21세기 예언자' 네이트 실버(36·Silver)는 예측의 성패를 다룬 이 책에서 "지식이 아무리 넘쳐나도 우리가 실제로 아는 것과 안다고 생각하는 것 사이의 격차는 점점 벌어지고 있다"고 썼다.
야구는 모든 예측의 모델이다. 시카고대 경제학과 출신으로 메이저리그 승부 예측 시스템 '페코타(PECOTA)'를 개발한 그는 2006년 보스턴 레드삭스 2루수 더스틴 페드로이아가 최고의 선수가 될 것으로 전망했다. 키 177㎝에 머리숱 적고 올챙이배를 지닌 이 선수가 그렇게 되리라고 예상한 전문가는 없었다. 페드로이아는 이듬해 아메리칸리그 신인상, 그다음 시즌에는 리그 MVP를 차지했다.
좋은 예측 시스템엔 통계 파악 말고도 두 가지가 더 필요하다. 실력과 운을 분리해야 하고 '노화곡선(Aging Curve)'을 이해해야 한다. 투수 승패 기록을 예측할 경우 지난 시즌의 승패 수보다 삼진·볼넷 수로 기준을 삼는 게 유용하다. 변동성이 적기 때문이다. 야구선수는 기량이 20대 말에 극점을 찍고 30대 중반이 되면 하락세가 두드러진다.
- /더퀘스트 제공
실버는 "선거에 영향을 미치는 핵심 정치 뉴스는 불규칙한 속도로 진행되지만 기사는 날마다 생산된다. 이들은 대부분 '필러(filler·여백 채우기용 기사)'인데, 기사 가치가 없다는 사실을 감출 목적으로 설계된다"면서 "정치 기사는 종종 신호를 놓치고 소음을 부풀린다"고 꼬집는다.
미국에서는 언론과 인터뷰를 많이 한 정치 전문가일수록 예측이 빗나가는 경향을 보인다. 그런데 왜 '고슴도치'만 그렇게 눈에 띌까. 같은 예측이라도 크고 대담한 예측을 하는 고슴도치에게 텔레비전 출연 기회가 더 많이 돌아가기 때문이다. 반면 불확실성을 충분히 고려해야 한다고 믿는 '여우'는 자신감과 확신이 부족하다는 오해를 받는다.
이 책은 "여우가 고슴도치보다 훨씬 나은 예측을 한다"고 말한다. 고슴도치가 사실을 주무를 때는 자기 편견, 즉 실제 존재하는 게 아니라 자기가 보고 싶어 하는 쪽만 본다는 것이다. 여우는 정보에 묻은 소음을 제거하고 신호를 추출하려고 애쓴다. 건강 문제를 살펴봐 줄 의사를 찾거나 퇴직금에 최고 수익을 내줄 투자 전문가를 찾는다면 여우에게 갈 일이다.
실버는 통계학의 '베이즈 정리(Bayes's Theorem)'를 이용해 신호와 소음을 구분한다. 사전 확률을 뽑고 나서 새 정보가 나오면 가장 가능성 있는 것을 골라 적용해 사후 확률을 개선해 나간다. 동전을 던질 때 앞면이 나올 확률은 50%지만 '찌그러진 동전'이 있을 가능성도 고려하는 식이다.
파이브서티에이트의 예측 모델은 각종 여론조사의 평균을 취하되 각각이 과거에 보인 정확성을 바탕으로 가중치를 부여했다. 2010년 11월 2일에 내놓은 예측은 공화당이 하원에서 45~65석을 추가로 확보하리라고 전망했다(실제 결과는 63석). 실버는 '선거 1개월을 앞두고 여론조사에서 지지율 격차가 5%포인트일 때 승리할 가능성은 81%'라는 식으로 믿음직스러운 통계를 내 환영받았다. "선거 결과 예측은 포커와도 비슷하다. 새롭고 나은 정보가 나타날 때마다 자기가 한 예측을 계속 업데이트(수정)해야 한다."
진주만 공습이나 9·11 테러를 예고하는 신호는 도처에 있었다. 사전에 포착하지 못한 실패의 가장 큰 원인은 상상력의 부족이었다. 실버는 "미래를 붙잡으려면 신중하게 예측하고 그 결론의 불완전성을 인정하면서 새로운 정보를 끊임없이 모아야 한다"고 썼다.
정치·야구·주식·도박·지진·허리케인 등 사례가 풍부하고 문체는 단단하다. 불확실성이 증가하는 빅 데이터 시대를 항해할 때 필요한 나침반처럼 읽힌다. 원제 'The Signal and The Noise'.
'人文,社會科學 > 책·BOOK' 카테고리의 다른 글
[서평] 한반도와 동아시아의 안보와 평화 외 1 (0) | 2014.08.23 |
---|---|
[서평] 이주헌 '창조의 미술관' (0) | 2014.08.16 |
[서평] '정신적 삶'을 가르치면 가난도 이긴다 (0) | 2014.08.09 |
[서평] 뉴스의 소용돌이에서 살아남는 법 (0) | 2014.08.02 |
[서평] 부끄럽지 않은가?… 당신의 민낯 (0) | 2014.07.12 |