ナンバーセンス ビッグデータの嘘を見抜く「統計リテラシー」の身につけ方

ビッグデータは救世主なのか

  • 統計学者にとって、優秀な予測モデルは宝石のように光り輝いて見える。それでも、優秀なモデルが抽出した顧客の大半は「間違った陽性反応」だ。 この残念な結果は、予測可能な結果でもある。企業の経営者は、支離滅裂なマーケティングで気分を害された顧客から厳しく責められること以上に、販売の機会を失うことを恐れるからだ。 ビッグデータの到来がこの危機から救ってくれるのだろうか。
  • たとえば、あなたはこの本をどうして買おうと思ったのだろう。書店で表紙のデザインに惹かれた。前著『ヤバい統計学』の統計的思考の話がおもしろかった。自分の誕生日に自分でプレゼントした。毎月1日に地元の書店で本を1冊買うことにしている。同僚が絶賛していたから帰りに買った。ビジネス書はほとんど読まないが、気まぐれで買ってみた。私のブログを愛読している。パートナーが数学教師だ······。好奇心、期待、友情、同僚の言葉、習慣、だまされやすい、気まぐれ。『ナンバーセンス』を買う理由として、いずれもそれなりに納得できる。
  • では、次に挙げる項目のなかに、あなたがこの本を買った理由があるだろうか。
    • あなたは中年だ
    • あなたは大学を卒業している
    • あなたは管理職だ
    • あなたは都会に住んでいる
  • どれも『ナンバーセンス』を買う理由にはなりえないと思うかもしれない。統計上は購入者の大半が都会に住んでいても、都会の暮らしを楽しんでいるからこの本を買った、という人はいないだろう。反事実的な考え方をすると、郊外で子育てをしている人のなかにも、この本を買う人はきっといる。それでも一般的なターゲティングのモデルは、年齢や学歴、職業、地理的条件などのデータを貪るように取り込む。 小売り大手ターゲットのアルゴリズムは過去の購買パターンを、未来の購買行動の原因ではなく指標として参照する。一方で、信頼や同僚の影響、習慣など、人間の行動に直接的な影響を及ぼすが、漠然として形のない要因は気にもとめない。
  • あるものをどうして買ったのか、本当の理由は残念ながら簡単には計測できない。そもそも計測などできるのだろうか。 一般に社会科学の統計モデルは、人間の行動の理由ではなく相関関係をもとにしている。そのようなモデルが描く現実は、当然ながら現実を十分に捉えきれず、間違った陽性反応と間違った陰性反応が多すぎる。
  • 統計モデルは、ニュートンの重力のモデルとは違う。リンゴを木から落とす下向きの力は、昨日も、きょうも、明日も働く。しかし現実世界の相関関係は、一貫性とはほど遠い。 あなたがきょう緑色の傘を持っているからと言って、次に買う傘も緑色とはかぎらない。因果関係を無視するモデルは、物理科学の世界ではモデルとして認められることはない。この構造的な限界は、データがどれだけ大量にあってもビッグデータでも乗り越えることはできないのだ。
  • それどころか、大量のデータは、相関関係に対して不相応で誤った信頼を生みやすい。エコノミストナシーム・ニコラス・タレブはベストセラーの『ブラック・スワン』で、目の前にいるのが白い白鳥ばかりでも、黒い白鳥がいる可能性を切り捨ててはいけないと警告する。ビッグデータと黒い白鳥が対決したら、勝つのは黒い白鳥だ。
  • 統計学者は、より現実に近い因果関係の枠組みを社会科学のモデルに組み入れようと苦心している。簡潔に表すと、図表5-3のbに似た構造になるだろう。もっとも、人間にできないことがアルゴリズムにできるというのは過大評価だ。流行や衝動など、人間の行動の本当の理由を統計モデルが導き出せるとは考えにくい。これらの要因は、直接は計測できない「潜在因子」と呼ばれる。モデルを構築する際は、計測する方法がわからない隠れた要因に推測や解釈を加えるが、その推測や解釈を証明することはできない。潜在因子を説明しないままにする場合もある。こうした小手先では構造的な問題を解決できないが、統計モデルの場合、謎に満ちた世界に新しい洞察をもたらすかぎり構造が不完全でも許される。
  • このような相関関係の構造は、いずれにせよ不安定だと考えられる。 行動心理学者は創意に富んだ実験をとおして、私たちの判断が「プライミング効果」 〔訳注:先に受けた刺激が後からの刺激に影響を与える〕に左右されやすいことを証明している。たとえば、経営学教授のチェンボ・チョンとケイティ・リルイェンキストは、被験者にあるストーリーを筆写させる実験を行った。ひとつのグループは同僚の邪魔をするストーリーを、もうひとつのグループは同僚の手助けをするストーリーをそれぞれ書き写した。その後、全員がさまざまな家庭用品について、どのくらい欲しいかを評価した。退屈な筆写は買い物という行為とは無関係なので、どちらのグループも似たような評価をするはずだ。
  • はたして、驚きの結果になった。ポストイットの付箋やエナジャイザーの電池など、一部の商品の評価はほぼ同じだった。一方で、洗浄剤には特徴的な傾向が見られた。 クレストの歯磨き粉やタイドの洗剤などは、同僚の邪魔をするストーリーを筆写したグループが、同僚を助けるストーリーを筆写したグループよりはるかに強く欲しがったのだ。このような実験の後に、プライマーとなる行動(この場合はストーリーの書き写し)の影響を受けた可能性について質問すると、ほぼすべての被験者が影響を否定する。つまり、関係のない行動であらかじめ潜在意識に刺激を与えることによって、洗剤が欲しいと思わせたとも考えられる。
  • 認知心理学行動経済学の権威でプリンストン大学名誉教授のダニエル・カーネマンは近著『ファスト&スロー』で、プライミング効果などの予期せぬ認知バイアスが意思決定に与える影響について、画期的な洞察をしている。私たちのまわりには、私たちの行動を誘引するものがたくさんある。複数のプライマーが同時に影響を与える場合もあるだろう。プライミング効果の存在が明らかになっても、たいていの人は自分が影響を受けたとは思わない。さまざまな実験の結果を踏まえると、人間の意思決定を、確固たる論理的な因果関係によって説明できるとは考えにくい。 統計学者は説明がない部分を因果関係のモデルに託そうとするが、そのような行為は本質的に誤りを生みやすく、大量のデータでもその誤りは直せない。
  • カリフォルニア在住のクリス・アンダーソンの理論は、ハイテク業界の人々との会話をつうじてかたちづくられてきた部分もあるだろう。ハイテク業界では、モデルの間違いが重大な結果を招くことはまずない。グーグルのページランクがあなたの検索内容に最も関連するサイトを見つけられなくても、グーグルに実害はない。あなたもページランクの間違いに気がつかないだろう。ネットフリックスがあなた宛てにおすすめする映画がくだらなければ、無視すればいいだけだ。グルーポンオーガスティン・フォーに無関係なクーポンの勧誘を次々に送りつけるが、無料で届いたものにそこまで不満は感じないだろう。クリス・アンダーソンは2008年に、「十分な量のデータがあれば、数字がおのずと語りだす」と言った。誰もあえて口にしないが、相関関係のモデルが導き出した予測の大半は間違っている。頭脳やスキルの問題ではない。人間の行動という万華鏡を、公式に押し込もうとしても無駄なだけだ。ビッグデータの到来は、理論の終焉ではない。あらゆる統計モデルに仮説が含まれていることは、次の二つの章で詳しく説明する。

 

  • 2006年に、ジェイはティファニー・ビクトリア・メモリアル・ファンタジーフットボールリーグ(FFL)に参戦した。 チーム名は「タフ・トウズ」。賞金もない小さなリーグで順位を上げると、「ビッグなところで」力試しをしたくなった。
  • ファンタジーフットボールは1990年代半ばから全米で流行している。NFLの現役選手を選んで仮想チームを編成して戦う、いわば「バーチャルNFL」だ。 NFLのシーズンとともにFFLも開幕。選んだ選手の実際の試合でのプレーに応じてポイントが加算され、バーチャルの勝敗が決まる。CBSやFOXなどが専門サイトを開設してリーグを主催し、対戦スケジュールや統計、スコアなどの情報やさまざまなツールを提供するようになると、人気に火がついた。市場調査会社イプソスによれば2011年の時点で参加者は2400万人。そのうち20%が女性だ。
  • NFLの2011~12年シーズン半ばに、ジェイはデータを解析して自分の強みと弱みを検討した。時間をかけて(つまり、策を弄して)登録選手の顔ぶれを最適化するべきか、それとも今いる選手から先発メンバーをうまく組み合わせるべきだろうか。
  • ジェイはNFLの伝説のコーチ、ビル・パーセルズの言葉に感銘を受けていた。弱小チームだったニューヨーク・ジャイアンツを率いてスーパーボウルを2回制した(1986年、90年)名将だ。1993年からニューイングランド・ペイトリオッツを指揮していたパーセルズは、96年にオーナーのロバート・クラフトと衝突。 「人に料理をさせたいなら、食材の少なくとも一部は自由に買わせるべきだ」と嘆いた。 この秀逸なたとえは、フットボールチームのゼネラル・マネジャー (GM)とヘッドコーチの繊細な関係を言い当てている。クラフトは昔ながらの責任分担を望んだ。
    • GMはドラフトやトレード、ウェーバー制度を使って選手を揃え、サラリー・キャップ(チームが所属選手に支払う年俸総額の上限)に目を光らせる
    • コーチは試合ごとに先発選手を選び、対戦相手に合わせて戦略を立て、フィールドで戦術的な判断を下す
  • 当時、パーセルズのコーチとしての能力は文句のつけようがなかった。しかし本人は、自分に与えられた選手の顔ぶれに満足していなかった。クラフトが自分の長年の右腕でもあるGMからチーム編成の権限を奪うことを拒否すると、パーセルズはニューヨーク・ジェッツに移籍した。
  • ファンタジーフットボールは、投資ゲームとして考えるとわかりやすい。投資ゲームのプレーヤーは、一定期間内に最も利益を上げるポートフォリオの構成を競い合う。ファンタジーフットボールの「株」はNFLの選手だ。毎週日曜日の試合が終わると、選手のプレーから「株価」を計算する。 「ポートフォリオ」は、1人の登録選手から試合前に選ぶ9人の先発リスト。交代要員の5人はポイントを稼がないが、関心のある銘柄を注目リストに入れておくようなものだ。

yamanatan.hatenablog.com