無知と無能の間に

無知無能者、固人之所不免也

2016年アメリカ大統領選挙まとめ、その2〜ビッグデータとはなんだったのか?

ネイト・シルバーという統計学者がいる。メジャーリーグベースボールで各チームの選手が将来どのような成績を残すかというシステムを作って名を売り、2008年の大統領選挙で50州のうち49州での選挙結果を当てたという人物だ。2012年の大統領選挙では50州とコロンビア特別区(ワシントン)の結果をすべて当てた。日本でも彼の信者が多くいる。

さてネイト・シルバーが今回どのような予想をしたかといえば、投票日の10日前の時点でヒラリー・クリントンが勝利する確率を80~85%と予想していた。また共和党支持のテレビ局であるフォックスニュースは、ヒラリー・クリントンの勝利が81%であると報じた。

しかし、出口調査の結果が整理されていくと、各メディアともにトランプの当選を報じるようになっていった。

つまり「大統領選挙の予想報道を見て、クリントン支持者は選挙に行くモチベーションを保てなくなり、トランプ陣営は激戦州に力をいれて消極的支持者を投票に向かわせた」というストーリーを支持するものだといえる。

では問題は、これまでのような固定電話に無作為に電話をかけて選挙予測する方法は捨てるべきなのか?ということになる。

子供大統領選挙

「子供大統領選挙(Kids Vote)」、これまで2回外しただけであったが、今回の選挙では子供大統領選挙もクリントン当選という結果になったが、外したことになる。

この子供投票は、1964年の選挙から、ずっと正しく結果を予測してきた。その理由として以下のようなことが考えられる。

  1. 標本母数が15万人もいる
  2. 家庭で交わされているであろう親たちの本音トークを子供たちが聞いているはずで、それが結果に反映される
  3. 子供投票がターゲットになる子供を持つ親の年齢層(30〜49歳)が全投票者数で占める割合が高かった

この予想が外れたのは、極めて示唆的である。以下のことが考えられる。

  • 親の会話に嘘があった(トランプのような人物を)
  • 親の会話でトランプの話題があったが、子供の正義感から、とてもトランプに投票することはできなかった
  • 子供を持つ親の年齢層があまり投票に行かず、全投票者数で占める割合が相対的に減った

大統領選挙は予測可能か?

今回の大統領選挙で統計学の専門家たちが、「科学的アプローチ」だとか「データ重視」だとかを一切理解せず、自分の見たことしか信じようとしない白人ブルーカラーにノックアウトされたというのは示唆的である。少なくとも、これまでのように投票日の1週間前までに固定電話の無作為抽出から選挙予測をするというアプローチは死に体といえる。

「金曜日の夕方に紙おむつを購入する人は、ビールも一緒に買いに行く」といような、ほとんど無意識の行動として習慣化され、かつデータが取りやすい事象(金曜日の夜は年に50回以上やってくる)ような事象の予測はたてやすい。一方で、大統領選挙は4年に1度である。データが少ない。しかも当選予想が出た後で、意思が変わる。また投票直前でも意思が変化してしまう。

となると、選挙予測に人工知能的なアプローチはあるかもしれない。しかし、4年に一度しかデータが取れないとなると、完全な機械学習による予測は200年とかかかる。人工知能に投票予測をさせるより、人工知能に大統領業務をやらせる方が早く到来するかもしれない。

少なくとも、「統計学が最強の学問である」なんて本があったが、その「思いあがった態度」は捨てなければならないだろう。