誰もが嘘をついている ビッグデータ分析が暴く人間のヤバい本性

著者も述べているように、強化版『ヤバい経済学』だ。
  • たとえばセックスを例に考えてみよう。性生活についてのサーベイは当てにならない。私は総合的社会調査(GSS)を分析したことがある。これは米国人の行動をめぐる最も権威的で影響力のある調査の一つと考えられている。この調査によると、異性愛者の女性は、年間に平均して55回性交し、その16 %においてコンドームを使用している。となると、年間に消費されるコンドームは11億個になる。
    だが異性愛者の男性は、年間に16億個のコンドームを用いていると述べている。
    両数値は論理上、一致するはずである。では男性と女性のどちらが真実を述べているのか?
  • 実はいずれでもない。世界的に消費者行動を追跡している情報、調査会社ニールセンによれば、コンドームの年間販売数量は6億個に満たない。つまり男女とも嘘をついており、違いはその程度だけなのだ。実際、嘘だらけである。結婚歴のない男性は、年間に平均29個のコンドームを使っていると述べている。となると、累計では独身者はおろかすべての米国人男性が使用するコンドームの数を超えてしまう。 既婚者もやはり性交回数を過剰に申告しているようだ。65歳未満の既婚男性は、平均して週に1度性交していると回答している。
  • ビッグデータ分析を相手にしない懐疑派も多い。「ビッグデータに情報など
    ないとは言わない」と著述家で統計学者のナシーム・タレブは記している。「確かに情報は含まれているだろう。問題の核心は、どんどん大きくなる干し草の山から針を探し出すのが困難であることだ」

 

  • ポーンハブ上における男性による検索上位100フレーズのうち16は近親相姦絡みだった。生々しくなるが、「兄と妹」とか「継母が息子とやる」とか「母と子」とか「母が息子とやる」とか「本物の兄妹」などだ。男性ユーザーによる近親相姦フレーズ検索の過半数は母と息子の絡みのある動画を探すものだった。利用者が女性の場合、ポーンハブ上での検索上位100のうち近親相姦に関わるものは9つで、それらは男性の場合と同様の傾向にあったが、親と子供の性別がたいてい逆になっていた。つまり女性による近親相姦動画の検索の過半数は、父親と娘をめぐるものなのだ。

 

  • わかったのは、豊かな地域に生まれたほうがNBA入りするチャンスがはるかに高いというものだった。たとえば最富裕地域に生まれた黒人の子供は、最貧地域に生まれた黒人の子供よりも、2倍もNBA入りする可能性が高い。白人の子供の場合、最富裕地域の子は最貧地域の子より1.6倍有利だ。
  • この結果は、一般通念に反して、現実にはNBAでは貧困層出身者は少数派ということを示している。だがこのデータは完璧ではない。なぜなら、たとえば米国で最も豊かな郡であるニューヨーク郡(マンハッタン)はハーレムのような貧困地域も含んでいるからだ。だから困難な成育歴を持つ人こそNBA入りするという仮説にもまだ成立する余地がある。検証するには、これではデータや手がかりが足りない。
  • そこでNBA選手の家族構成を、報道やソーシャル・ネットワーク類から調べてみた。この調査は非常に手間がかかるので、対象を1980年代に最も多くの得点をあげたトップ100人の黒人NBA選手に限った。するとNBAの優秀な黒人選手がシングルマザーの家庭で育った率は、米国黒人の平均よりも30%少なかった。つまりトップ黒人NBA選手の出身家庭環境を調べた限り、恵まれた環境であることは成功の強い追い風であることがわかる。
  • とはいうものの、郡ごとの出生率も一部選手に限った背景調査も、全NBA選手の幼少時代を知るうえでは完璧なデータとはいえない。だから両親揃った中流家庭出身であることが、貧困家庭のシングルマザー育ちであることに比べてNBAのスターになりやすい条件であるとは、まだ言い切れない。
  • そこで私は、ある人物の出自についてより強力な手がかりとなるかもしれない研究を思い出した。それはローランド・フライアとスティーヴン・レヴィットのエコノミストコンビによる共同研究で示されたもので、黒人のファーストネームは社会経済学的出自の手がかりになる、というものだ。この研究では、1980年代のカリフォルニアの出生証明を調べて、アフリカ系アメリカ人の貧しく低学歴なシングルマザーは、中流で高学歴で結婚している母親とは違うタイプの名前を子供に授けていることがわかったのだ。
  • その研究によると、裕福な出自を持つ子供たちは、ケヴィン、クリス、ジョンなどの一般的な名前であることが多い。一方、困難な家庭出身の子供たちは、シーショーン、ウニーク、ブレオ、ンシャイなどの独特な名前だった。貧困家庭に生まれたアフリカ系アメリカ人の子供が、同年に生まれた子供の中で唯一無二の名前を持つ率は中流以上の家庭の子の2倍に達していた。では黒人のNBA選手の名についてはどうか?中流風の名か、それとも貧困黒人風か?この研究と同じ期間で見ると、カリフォルニア生まれのNBA選手が平均的な黒人に比べて独特の名前を持っている率は半分程度だった。これは統計学的には有意な差だ。
  • さて、3種類の証拠がそろった。郡別生誕地、トップ選手の母親の婚姻状況、そして選手たちの名前だ。どの情報源も完璧ではない。だがいずれとも、同じ物語を裏付けている。社会経済学的背景が良いほど、NBA選手として成功しやすいのだ。つまり一般通念は偽である。
  • 1980年代生まれのすべてのアフリカ系アメリカ人のおよそ60 %は、未婚の親から生まれている。だがこの10年間のアフリカ系アメリカ人のうちNBA選手になった者の大半は、結婚している親から生まれていると私は推測する。要するにNBAは、レブロン・ジェームズのような背景の男たちが多勢を占める世界ではないのだ。むしろテキサスの両親のもとで電子機器に夢中だったクリス・ポッシュや、ノースカロライナ州ルイヴィルの中流家庭の次男だったクリス・ポール(彼の両親は2011年に息子と一緒にクイズ番組に出演している)のような者のほうが多いのだ。
  • インフルエンザや住宅価格に対するのと同じように、失業率の趨勢を知るためにグーグル検索を活用できるのだろうか?人々の検索内容から、どれだけの人々が失業しているかを、政府統計のまとめよりもはるかに早く知ることができるのか?
  • 私は2004年から2011年までの米国失業率をグーグル・コリレイトに入力してみた。その間に行われた兆単位の検索の中で、最も失業と相関性の高かった検索語句は何だっただろう?「職業斡旋所」などの類と思う人が多いのではないか。それらの検索は多いがトップではなかった。では「新しい仕事」かって?それも上位だがトップではない。
  • 私が調べた期間で最も多かった検索ワードはーそしてこうした単語は移り変わるのだが「スラットロード(Slutload)」だった。そう、最も検索された語句は有名ポルノサイトの名前だったのだ。意外かもしれないが、失業者はおそらく暇を持て余している。多くは家に閉じこもり、一人で退屈しているのだ。他に失業率と相関性が高かった検索語句は「スパイダーソリティア」だった。これも暇つぶしを求めている人を思えば不思議ではない。
  • これほど難しい状況で、馬主はどうやって稼げる1頭を選べるのか?伝統的に馬の成功を予測する最善の方法は、血統を調べることとされてきた。馬の専門家になるとは、ある馬について聞かれたことは何でも立て板に水で語れることを意味する。父親、母親、祖父母、兄弟や姉妹はどの馬なのか……。たとえば母親方に大型の馬が連なる大きな馬を見たエージェントは、「血筋にそう体格だ」という。
  • だがこのやり方には一つ問題がある。血統は重要だが、それでも競走馬の成功の説明の一端にしかならないのだ。競馬界で最高の栄誉とされる「年度代表馬」を勝ち取った馬の血筋を引く競走馬を総覧してみるといい。こうした子孫は世界最良の血を引くものばかりだ。それでもその4分の3以上が、メジャーレースで一度も勝てないのである。データによれば、勝ち馬を予測する伝統的な方法には改良の余地がたっぷりとある。

 

  • セダーの孤軍奮闘は長らく続いた。馬の鼻孔の長さを測り、世界初かつ最大の馬の鼻孔サイズと後の獲得賞金のデータベースを完成させた。だが鼻孔のサイズは成績に関係していなかった。馬の心電図データも取り、死んだ馬を解剖して脚の速攣縮(全力疾走に使う速筋)(そくれんしゅく)の量も測定した。あるときには厩舎から糞を掻き出して量を測りさえした。レース前に体重を落とし過ぎるとスピードが落ちるのではないかという仮説を検証するためだった。いずれも戦績には関わっていなかった。
  • そして12年前、ついに突破口が開いた。内臓の大きさを測定することにしたのだ。既存の技術では不可能なことだったので、携帯式の超音波測定装置を自作した。成果は目覚ましかった。心臓とりわけ左心室の大きさが馬の戦績を最も左右する変数であることを突き止めたのだ。他に脾臓も大切だった。脾臓が小さい馬はろくに賞金を稼げなかった。
  • セダーは他にもいくつか発見をした。膨大な数のギャロッピング動画をデジタル化して、ある種の足並みが戦績に関わっていることを見出した。
  • また2歳馬の中には、最初の200mほどを走ったところで息を切らすものがいることに気づいた。そうした馬が100万ドル単位で取引されることもあるが、セダーのデータはそんな馬が金の生る木になることは決してないことを示していた。そのためアシスタントを決勝線そばに陣取らせて息を切らしている馬を候補から除外させた。

 

  • たとえばウォルマートは全店でのデーータを用いて棚に並べる商品を決めている。2004年に南東部にひどい被害をもたらしたハリケーン・フランシスの到来直前、彼らは嵐に見舞われる直前の購買行動は変わるのではと賢明な予測を立て、過去のハリケーン到来時の購買データを調べた。売り上げが大きく伸びていたものは何かって?ストロベリー・ポップ・タルト(タルト生地にジャム様の具を挟んだケロッグの加工食品)だった。ハリケーン到来直前、この商品は普段の7倍も売れていた。
  • この分析に基づいて、ウォルマートはストロベリー・ポップ・タルトを満載したトラックをハリケーンの予想進路である州間高速95号沿いの店舗に差し向けた。そして実際、この商品はよく売れた。どうしてポップ・タルトかって?おそらく冷蔵庫もレンジも要らないからだろう。どうしてストロベリーなのかって?さあ、わからない。だがハリケーンが来ると、人々はどうやらストロベリー・ポップ・タルトに手を伸ばすようなのだ。だからウォルマートでは、いまではハリケーンが来るとこれを店に大量在庫することを習いにしている。理由はどうでもいいのだ。大切なことは相関性そのものだ。

 

  • 「大気圏外から経済成長を測定する」ーそんな大胆不敵な題名の学術論文がある。J・パーノン・ヘンダーソン、アダム・ストーレイガード、デイヴィット・N・ウェイルは、多くの発展途上国では既存の国内総生産(GDP)の測定法に欠陥があると気づいた。これは経済活動の大半が地下に潜り把握されていないためだ。政府機関にも経済生産を測定する術がない。
  • そこで彼らは、型破りな方法を考えた。夜中にどれだけの明かりがついているかでGDPを測定しようとしたのだ。そしてこの情報を、1日に14回地球を周回する米国空軍の衛星からの写真で得ることを思いついた。
  • 夜間の明かりがどうしてGDPの良き指標になるのかって?非常に貧しい地域では、電気代の支払いにさえ事欠く。だから経済状態の悪い地域では、夜間の電灯使用が激減する。アジア金融危機に直撃された1998年のインドネシアでは、夜間の電灯使用が急減した。韓国では1992年から2008年にかけて、この間の目覚ましい経済発展と歩調を合わせて、夜間の電灯利用が72 %も増えた。同時期に北朝鮮では、その間の経済不振を反映して電灯使用はむしろ減っている。

www.aeaweb.org

  • グーグル検索からは、こうしたセックスレスについて意外なこともわかる。彼女がセックスに応じてくれないという文句より、彼氏が応じてくれないという文句のほうが、2倍も多いのだ。彼氏についての文句検索のダントツの1位は「彼氏がセックスしてくれない」である(この検索はユーザーの性別まで分析していないが、既述の分析から95 %の男性は異性愛者なので、男性による「彼氏」についての検索はあまり多くないと推測できる)。
  • これをどう解釈すべきか?実際に彼女よりも彼氏のほうがセックスを拒むことが多いのか?そうとは限らない。前述のとおり、グーグル検索は人が腹立ちまぎれに行いがちだ。男は妻や彼女がセックスに応じてくれないときに友人にこぼしやすいが、代わりにグーグルにこぼしている)のかもしれない。だからグーグルのデータだけでは女性より男性のほうがパートナーのセックスの求めを拒むことが2倍も多いとはいえないとしても、彼氏が応じてくれないことが女性にとって捨て置けないほど多いことはわかる。

  • 女性は相手のペニスのサイズを気にしているだろうか?グーグル検索によれば、めったに気にしない。女性がペニスのサイズについて検索する頻度は、男が自分のそれについて検索する場合の170分の1である。そんな稀な機会は確かにサイズに関わる検索だが、必ずしも小さいことについてではない。その40 %は大きすぎることへの不満だ。「セックス中の……」に伴う検索語のトップは「痛み」である(出血、おしっこ、声が出る、おならなどで上位5位を構成する)。だが男性によるペニスの大きさ関連の検索のうち縮小術の検索は、わずか1%に過ぎない。
  • 男性の性関連検索で2番目に多いのは、どうやって交接時間を延ばすかである。
    これまた男女の不安は合致していない。女性は、彼氏をどうやってもっと早くイカせるかと、もっと長く保たせるかを、同程度に検索している。女性が彼氏のオーガズム関係で抱く最大の心配事は、イかせるまでの時間ではなく、どうしてイかずじまいなのかである。
  • 男の身体については普段あまり話題にならない。そして確かに容姿を気にするのは主に女性だが、その偏りは思ったほどでもない。人々がどんなウェブサイトを見ているかを計測できるグーグル·アドワーズを分析したところ、美容関連の42 %、減量関連の33 %、美容整形関連の39 %は男性が検索していた。胸に関する「ハウ・ツー」関連検索の20 %はどうやって男の胸を小さくするかについてのものだった。
  • 男が自らの容姿に対して抱えている不安は案外大きいとはいえ、やはりこの点では女性のほうが悩みは深い。デジタル自白薬で真相に迫ってみよう。米国では豊胸手術についての検索が年に700万件以上に上る。公式統計によれば、年に30万人が実際に手術を受けている。

 

  • 男女のどちらが多く異性に対するオーラル・セックス技術を検索しているのか?どちらがより奉仕しているのか?どちらが性的にサービス精神が豊かか?女性である。私の苦心の推計によれば、女性はオーラル・セックスのテクニックについて男より2倍も多く調べている。そして男がオーラル・セックスについて調べるときには、それはえてして相手をどうやって悦ばせてやるかではない。男は女性をイかせる方法と同じほど自分にフェラする方法を調べている(これはグーグル検索データをめぐる私が最も好きな事実だ)。

 

  • グレート・リセッション当時の児童虐待を考えてみよう。
  • 2007年後半にこの大規模景気後退が始まったとき、多くの専門家は当然ながら子供への影響を憂慮した。何しろ多くの親たちに重圧と失意がのしかかったことは、虐待の主要リスク要因となるからだ。児童虐待は急増しそうだった。だが公式データが発表されてみると、それも取り越し苦労のようだった。虐待保護件数はかえって減っていた。さらにこの減少幅は、景気後退に最も手ひどく見舞われた州ほど大きかった。「案ずるには及びませんでした」とペンシルベニア大学の児童福祉の専門家リチャード・ゲレスは2011年にAP通信に語っている。意外かもしれないが、児童虐待は景気後退中に減ったようであったのだ。
  • だが多くの成人が失業に苦しんでいるときに児童虐待が本当に減るのか?私にはにわかに信じられなかった。だからグーグル検索データを 調べることにした。すると子供たちが悲痛な検索ー「ママがぼくをぶつ」、「パパに殴られた」ーをしていたことがわかった。そしてこの検索データは公式統計とは異なる悲惨な実相を浮き彫りにしていた。こうした検索はグレート・リセッションの間に跳ね上がり、失業率データとぴったり一致していたのだ。
  • 思うに児童虐待が減ったのではなく、その報告数が減っただけなのだろう。当局に報告される児童虐待数は氷山の一角と推計されている。そして景気後退期には、児童虐待を報告することが多い人々(教師や警官など)や事例を扱う人々(児童保護当局者など)は手いっぱいだったか失業していた可能性が高い。当時、虐待が疑われる事例を報告しようとしたが、さんざん待たされて結局あきらめたと話は枚挙にいとまがない。

 

  • フェイスブックはデジタル自白剤ではなく、「自分はこんなにいい暮らしをしていると友人にデジタル自慢させる薬」なのだ。フェイスブック上では、平均的なユーザーは幸せな結婚生活を送り、カリブ海に休暇旅行に出かけ、『アトランティック』の記事を追いかけている。現実には多くの人々はいらいらとスーパーのレジ前に並びながら「ナショナル・インクワイアラー(低俗雑誌)』を横目で立ち読みしつつ、もう何年も一緒に寝ていない伴侶からの電話を無視している。フェイスブック上では、家族生活は完璧に見える。現実には悲惨なもので、そのあまり子供を持ったことを後悔する人もいるくらいだ。フェイスブック上では、
    あたかもすべてのヤングアダルトが週末にはいかしたパーティーで楽しんでいるかのようだ。実際には彼らの多くは自宅に引きこもり、ネットフリックスばかり見ている。フェイスブック上では、彼女は彼氏との息抜き旅行での26枚の幸せな写真を投稿する。現実には、この写真を投稿するや否や、彼女は「彼氏がセックスしてくれない」とググる。そして彼氏はおそらくそのとき「グレート・ボディ、グレート・ブロウジョブ(人気のポルノ動画)」を見ているのだ。

  • ネットフリックスも似た教訓を早期に学んだ。人の 言葉を信じるな、かつて同社のサイトでは、ユーザーが今は時間がないがいずれ見たい映画のリストを登録できた。こうすれば、時間ができたときにリマインド通知してやれるからだ。だがデータは意外だった。ユーザーは山ほどこのリストを登録したのに、後日それをリマインドしてもクリック率がほとんど上がらなかったのだ。
  • ユーザーに数日後に見たい映画を登録させると、第二次世界大戦時の白黒の記録映画や堅い内容の外国映画など高尚で向学心あふれる映画がリスト入りする。だが数日後に彼らが実際に見たがるのは、ふだん通り、卑近なコメディや恋愛映画などである。人は常に自分に嘘をついているのだ。
  • この乖離に気づいたネットフリックスは見たい映画登録をやめ、似たような好みのユーザーが実際に見た映画に基づいた推奨モデルを作り出した。ユーザーに、彼らが好きと称する映画ではなく、データから彼らが見たがりそうな映画を提案するようにしたのだ。その結果、サイトへのアクセス数も視聴映画数も伸びた。ネットフリックスのデータサイエンティストだったサピエ・アマトリエインは、「アルゴリズムは本人よりもよくその人をわかっているんだ」と語った。

 

  • 妻たちによる代表的な夫の評価
  • SNSへの投稿:「最高」「親友」「驚異的」「誰よりすごい」「超かわいい」
  • 夫に関する検索語:「ゲイ」「嫌なやつ」「驚異的」「うんざり」「いやらしい」
  • 私たちは人のSNS投稿は目にするが検索しているところは見ないので、夫を「最高」、「誰よりすごい」、「超かわいい」と評する妻たちの数をいつも過大評価している。一方で夫を「嫌なやつ」、「いやらしい」、「うんざり」と検索している妻たちの数は過小評価している。匿名のデータ集合全体を分析することで、結婚生活や人生に困難を覚えているのは自分だけではないと得心がいくかもしれない。そして自分の検索内容と他人のSNS投稿を比べる愚かしさに気づけるかも
    しれない。

 

  • ウィンストン・チャーチル「30歳未満でリベラルではない人物は冷血だ。そして30歳を過ぎて保守ではない者にはおツムがない」
  • 政治的意見もスポーツチームの贔屓も、それが決まる過程はさほど変わらないことだった。人間には障害の刷り込みになる重要な時期があるのだ。多くの米国人は14歳から24歳という重要な時期に、その時の大統領の人気に従って意見を形成する。
  • ビッグデータなら有意義な下位集団に絞り込んでで人の性質について新たな洞察が得られる。
  • ビッグデータは、データ量が多いだけで従前のサーベイと同じことをするためのものであってはならない」とチェッティは説明する。彼らは手にした膨大なデータに対し、それに含まれる部分データをほとんど分析していなかった。「ビッグデータサーベイとはまったく違う分析設計ができるものであるべきです」とチェッティは言う。「たとえば地域に絞り込むなどです」言い換えると、数億規模のデータを手にしたことで、彼らは大小の自治体ごとのパターンを調べられるようになったのだ。

 

  • どうして一部の地域は、米国の重要人物を並外れて輩出しているのか?私はトップ輩出郡を調べてみた。するとそのほぼすべてが、次の2つのカテゴリーのいずれかに属することがわかった。
  • 第1に、これは私にとって意外だったのだが、その多くは大きな大学町を擁していた。たとえばミシガン州ウォシュテナウ郡のように、聞き覚えのない郡名をトップリストに見る都度、それは有名な大学町(この場合はアナーバー。ミシガン大学アナーバー校で有名)を擁する郡だった。他にもウィスコンシン州マディソン (ウィスコンシン大学マディソン校など)、ジョージア州アセンズ(ジョージア大など)、ミズーリ州コロンビア(ミズーリ大学コロンビア校など)、カリフォルニア州バークリー(UCバークリーなど)、ノースカロライナ州チャペルヒル(ノースカ口ライナ大学チャペルヒル校など)、フロリダ州ゲインズビル (フロリダ大学など)、ケンタッキー州レキシントン(ケンタッキー大など)、ニューヨーク州イサカ(コーネル大学など)の大学町を擁する郡はすべてトップ3%以内だ。
  • なぜか?やはり良質な遺伝子が集まるからかもしれない。教授や大学院生の子弟はえてして優秀だ(大きな成功をつかむうえで重要な特質だ)。そして大卒者が地域に多いことは、そこに生まれた人々の成功の予測変数である。
  • だがおそらく、それ以上の理由もあるのだろう。早期にイノベーションに接するためだ。大学町が優秀な人物を輩出することの多い分野は音楽だ。大学町の子どもたちは珍しいコンサート、個性的なラジオ局、独立系レコード店などに接する可能性が高い。そしてこれは芸術に限ったことではない。実業人を輩出するという点でも、大学町は率が高い。またもやアイデアや芸術の最先端に早くから接することが効くのかもしれない。
  • 出身者を成功させやすくする2番目の理由と推測されるのは、大都市を含む郡であるということだ。サンフランシスコ郡、ロサンゼルス郡、ニューヨーク市生まれだと、いずれもウィキペィア入りする率が最高水準になる。
  • 都市部は成功モデルを提示しやすい。若いうちになにかの世界の成功者に接する価値を考える上で、・・・ニューヨーク市出身者はジャーナリストとして成功する率が最も高く、同じくボストンの場合は科学者、ロサンゼルスの場合は著名俳優になる率が最も高い。これはそこで生まれた人の話であり、そこに引越した人の話ではないことに留意してほしい。そしてこの傾向は、それぞれの分野の著名人の指定を除いても、なお変わらないのである。郊外部は、有名な大学町でも含まない限り、都市部に比べて遥かに有名人の輩出率が低い。
  • ウィキペディア入りする確率を示すもう一つの強力な予測変数が浮かび上がった。生誕地の移民人口比率である。地域の外国生まれの人口比率が高い場所ほど、著名人になる確率が高まるのだ(見たか、ドナルド・トランプ!)。都市化の程度や大学所在地という点で似通った2つの街なら、移民が多いほうが著名人を生みやすい。なぜか?何よりも、移民の子であることと直接的に関係していそうだ。やはりウィキペディアをデータとするマサチューセッツ工科大のパンセオン・プロジェクトによる「最も有名な白人ベビーブーマー100人」の出自を、私は詳細に研究した とがある。彼らの大半はエンターテイナーだった。100人のうち少なくとも13人が外国生まれの母親を持ち(それには映画監督オリバー・ストーン、女優のサンドラ・ブロックジュリアン・ムーアなどが含まれている)、この比率は、
    同世代の全米平均の3倍以上も高いものだった(多くの人はスティーブ・ジョブズや俳優ジョン・ベルーシのように移民の父親を持っていたが、このデータは全米平均と比較することが難しかった。父親の出自は出生証明書に含まれないためである)。
  • では成功に影響しない変数とは何か?私が発見した中で少なからず意外だったのは、州がどれだけ教育費を支出しているかだった。
  • チェッティらの研究によると、ニューヨーク市は子供に中の上の暮らしを送れるようにしてやりたいと願う親にとって、特に良い子育ての場所ではない。だが私の研究によると、著名人にしてやりたいなら格好の場所である。
  • 成功を促す要因に目を向けると、郡ごとの大きな違いは腑に落ちる。成功の主成分をすべて持っている郡はたくさんある。ボストンに立ち戻ってみよう。山ほど大学を擁するこの街は、革新的な考えに満ちている。若者の手本になる成功者も多い都会でもある。そして大勢の移民を引きつけ、その子弟はこれらの恩恵を受けようとする。
  • だがボストンにこうした特質がなかったとしたら?もっと少ないスーパースターしか生み出せない運命だったか?そうとも限らない。他にも特質があるからだ。それは高度な専門化である。・・・・ミネソタ州ロゾー郡は小さな農村部で外国人もほとんどおらず有名大学もないが、この好例である。この郡に生まれた人のざっと740人に1人がウィキペディア入りしているのだ。その秘密はって?ウィキペディア入りした9人全員がプロのアイスホッケー選手としてであり、それがこの群のユースや高校生を対象にした第一級のホッケー教育のおかげであることには疑問の余地がない。
 
  • 人気のある暴力映画が公開された週末には、実際には犯罪は減っていた。そう、人気のある暴力映画が公開され、無数の米国人が残虐な犯罪シーンを目にしている週末には、犯罪は大きく減っていたのだ。
  • この意外かつ不可思議な結果に接した第一印象は、研究に不備があったのではというものだろう。だが分析過程を見直しても何の問題もなかった。次に思い浮かぶ理由は、別の変数がこうした結果をもたらしたのではというものだろう。そこで彼らは、季節との関係を検証してみた。無関係だった。天気が怪しいとも思ったが、これも関係なし。
  • 「あらゆる仮説を検証し、分析過程を振り返りました」とダールは私に語った。
    「でも何もおかしなことは見つかりませんでした」
  • 逸話や実験室での研究とは裏腹に、そして奇妙に思えるにもかかわらず、暴力的な映画を見ることは犯罪を大幅に減らしていたのだ。一体どうしてこんなことが起き得るのか?
  • その謎を解くカギは、ビッグデータを使って絞り込んでみることだった。データは伝統的に年次ベースであり、細かくてせいぜい月次ベースだ。週末ごとのデータが得られれば僥倖というもの。だが小規模なサーベイ・データの代わりに包括的なデータセットの使用が増えるにつれて、時間ごとや分ごとの絞り込みさえ可能になっている。そのためいまや人間行動をさらに詳しく研究できるのだ。
  • 総じて男たちは、映画館には丸腰でおとなしく映画を見に行くものだ。若く攻撃的な男たちは『ハンニバル』が公開されると足を運ぶ。一方、彼らは『プリティ・プライド』が公開された週末には映画館ではなく、バーやクラブやビリヤード場など暴力犯罪の発生率が高い場所に行く。暴力的な映画は、潜在的に暴力的な人々を、路上から遠ざけるのだ。
  • これにて一件落着・・・でもない。データにはもう一つ不思議な点があった。犯罪率低下は上映時間と共に始まるが、上映が終了して映画館が閉館した後にも続くのだ。暴力的な映画の公開中、犯罪はとっぷり夜が更けるまで、それどころか真夜中から朝方の6時頃まで減ったままなのだ。若い男どもが映画館の座席に縛りつけられている間に犯罪率が減るのはともかく、それなら終映後には犯罪率が上がりそうなものではないか?従前の研究では、暴力的な映画を見た被験者はより怒りをたぎらせ攻撃的になるのではなかったか。映画が終わった後も犯罪率が低下したままである理由は何か?犯罪学専門家である共同研究者らはじっくりと考えたあげく、またもや閃いた。彼らはアルコールが犯罪の主な誘因であるこ
    とを知っていた。そして米国では、ほぼどこの映画館でもアルコールを提供していないことも知っていた。実際、アルコール絡みの犯罪が暴力映画公開週末の深夜に激減することも確認された。
  • もちろん彼らの研究結果には限界もある。たとえばより長期的な影響の継続効果を調べることはできない。その影響がいつまで残るのかは、わからないのだ。
    そして継続的に暴力映画を見ていれば、いつかは暴力増加につながる可能性もある。だが彼らの共同研究は、暴力映画の直接的影響(それを探ることが調査の目的だった)の全体像を示している。おそらく暴力的な映画は一部の人に影響を及ぼし彼らの怒りを強く掻き立てて攻撃的にするのだろう。しかし、人を確実に
    暴力的な方向へと推し進めるものは、暴力的な人間とつるみ、飲むことである。
  • 一見、悪いと思われることも、もしそれがさらに悪いことを防ぐ理由になるのならましという考え
 
  • 指導者の命を狙う試みや、その成否を分けた偶然は世の常だ。チェチェン共和国アフマド・カディロフアドルフ・ヒトラーを比べてみよう 。両者とも、至近距離に爆弾を仕掛けられた。カディロフは死に、ヒトラーは直前の予定変更のため数分の差で難を逃れて列車に乗った。そして私たちは、ケネディを殺害しレーガンを生かした自然のランダム性を用いて、一国の指導者が殺されたとき、平均的に何が起きるかを知ることができる。ベンジャミン・F・ジョーンズとベンジャミン・A・オルケンのエコノミストコンビは、それをやった。彼らの研究では、統
    制群は暗殺未遂後の数年間の国、たとえば1980年代半ばの米国、実験群は暗殺完遂後の数年間の国、たとえば1960年代半ばの米国だ。
  • DO LEADERS MATTER? NATIONAL LEADERSHIP AND GROWTH SINCE WORLD WAR II: https://economics.mit.edu/files/2915
  • では指導者を殺された直後の影響とはどんなものか?ジョーンズとオルケンは、
    暗殺が起こると、世界の歴史が大きく変わることを発見した。そうした国は、
    劇的なほど異なる道を歩むようになるのだ。後継指導者はそれまで平和的だった国を戦争に導いたり、それまで戦争していた国に和平をもたらしたりしていた。また経済が活況だった国を破綻させたり、経済的破綻国家に繁栄をもたらしたりもしていた。
  • 実際、暗殺をきっかけとしたこの自然実験は、国政をめぐる数十年来の一般通念を転覆した。それまで多くのエコノミストは、政治指導者などおおむね政局に翻弄される無能なお飾りという見方に傾倒していた。
 
  • その結果の衝撃は、彼らの論文の題名ー『エリート幻想』ーが雄弁に物語っている。スタイ(ベサント)高(校)入りした影響?まったくのゼロだった。合否線のわずかな上下に位置した人々は、同等のAP成績やSAT得点を上げて同等の大学に進学していた。スタイ校出身者が他の高校の出身者よりも栄達する理由はただ一つ、もともと優秀な人間を採っているから、というのが研究の結論だった。同校の学生がAPやSATの成績が良いにしても、果てはより良い大学に進学しても、それはスタイ校での教育を原因とする結果ではない。「激烈な入試は、生徒層全般の高い学習効果の説明にはならない」と論文は記している。
  • ステイシー・デールとアラン・B・クルーガーのエコノミストコンビは、一流大学の卒業生の将来の収入の因果関係を調べる妙手を考案した。使ったのは、高校生のその後について記録した膨大なデータセットだ。そこにはどこの大学に出願し、どこに合格し、どこに進学したかや、出身家庭、成人後の収入などのデータが含まれていた。
  • 標本を実験群と統制群に分けるため、彼らは同等の家庭の出身者で、同じ大学に合格しながら、別の大学に進学した学生たちに注目した。ハーバードに合格しながらペンシルベニア州立大学に進学した学生たちもいるのである。恋人の近くにいたかったのかもしれないし、習いたい教授がいたからかもしれない。こうした学生たちは、大学の合否裁定委員会に言わせればハーバードへの進学者と同等の才能を持ちながら、彼らとは別の教育体験をした学生たちである。
  • ではこの2つの集団ーいずれもハーバードに合格したが片やペンシルベニア州立大学を選んだーのその後はどうなったか?結論はスタイベサント高校の研究に負けず劣らず衝撃的だった。両集団とも、職業生活を通じておおむね同じ収入を得ていたのだ。将来の収入を基準とするなら、同様な一流大学に合格しながら別の学校に入学した学生たちは、結局同じ職場に行きついていたのである。
次元の呪い
  • 次元の呪い
    証券市場を予想する戦術を、ラッキーコイン探しだと考えてみよう。ただしそれを見つけるためには、次のような厳密な試験が必要だとする。まず1000枚のコインに1から1000まで番号をつける。あなたは2年間毎朝、それをすべてトスして表が出たか裏が出たかを記録し、合わせてその日のスタンダード&プアーズ(S&P)平均が上げたか下げたかも記録する。そしてその全データをじっくりと研究する。そしてついに気がつく。コイン391番が表だと、S&P平均が上げる確率は70.3%だ!この関係は統計学的には完全に有効だ。ラッキーコインを見つけたのだ!毎朝、コイン391をトスして表になるたびに株を買えば、もう安物のTシャツを着てインスタント・ラーメンをすする暮らしともおさらばだ!
  • ・・・などと結論づけるなら、あなたも悪魔のような「次元の呪い」の犠牲者の1人となる。この呪いは、多くの変数(次元) ーこの場合は1000枚のコインーを、それより少ない観察ーこの場合は2年間で延べ504日の場の引け値ーで調べようとすると必ず降りかかる。変数の1つーコイン391番ーが上げ相場を予告できると解釈しやすくなるのだ。だが変数を減らすと、たとえばコインの枚数を100枚に減らすとーある1枚のコインの裏表が上げ市況に一致する確率は大幅に下がる。観察の回数を増やすとーたとえばS&P平均の結果を20年にわたって記録するならーコインの予測力はついていけなくなる。
  • 次元の呪いはビッグデータにとって大問題だ。なぜなら、新たなデータセットはえてして旧来のデータ源に比べて、全検索語やツイートの全カテゴリーなど、指数関数的に多くの変数を伴うからだ。何らかのビッグデータによって市場予測ができると言ってている人々は、この呪いにかかっているだけである。彼らがやっていることは、391番のコイン探しに過ぎない。
  • こんな例がある。インディアナ大学マンチェスター大学のコンピュータ・サイエンティストらは、市況の上げ下げを人々のツイート内容から予測しようとした。そこで彼らは、ツイートの内容に基づいてその日の世間の感情動向を分析するアルゴリズムを書いた。第3章で扱った感情分析に似た手法を用いたわけである。だが彼らが抽出したのは1つの感情ではなく幸福、怒り、親切など数多くの感情だった。その結果、冷静さを示唆するツイート、たとえは「今日は冷静な気分」というツイートが優勢である場合、その6日後にダウ平均が上がりやすいと見出した。そしてあるヘッジファンドがこの研究結果に賭けた。
  • どこが問題なのか?
  • 根本的な問題は、彼らがあまりにも多くのことを調べていることだ。そして一定量以上のことを試験すると、まったくの偶発性によって、そのうち1つが統計学的に有意性があるとされるのだ。彼らはさまざまな感情を試験した。さらに証券市況の変化に先立つこと1日前、2日前、3日前・・・と7日前まで調べた。そしてこれらの変数すべてを、わずか数カ月分のダウ平均の上げ下げに適用して分析した。場立ち6日前の冷静さは、証券市場を予言しない。先の例のコイン391番のビッグデータ版である。ツイートに基づいたヘッジファンドは、運用成績の不振のため開設後1カ月で閉鎖された。
天才の遺伝子を探す試み
  • 次元の呪いの犠牲となったのは、市況をツイートに基づいて予言しようとするヘッジファンドだけではなかった。我々を我々足らしめている遺伝的鍵を見つけようとする無数の科学者もまたそうだ。
  • ヒューマン・ゲノム・プロジェクトのおかげで、いまやヒトの完全なDNAを分析することができるようになった。このプロジェクトの可能性は膨大に思われた。
  • 統合失調症の原因となる遺伝子も見つかるのではないか、アルツハイマーパーキンソン病やALS(筋萎縮性側索硬化症)を発症させる遺伝子も解明できるだろう、ひょっとすると知性の元になる遺伝子だって見つけられるかもしれない......。IQを大幅に改善できる遺伝子があるのだろうか?天才を生む唯一の遺伝子が?
  • 1998年、著名な行動遺伝学者ロバート・プローミンが、その答えを見つけたと発表した。彼は数百人規模の学生のIQとDNAのデータを手に入れ、IQ160以上の「天才」学生のDNAと平均的な10の学生のそれを対照した。
  • すると2つの集団のDNAには顕著な違いがあった。場所は染色体番号6の片隅、謎めいているが強力な遺伝子で、脳の代謝に関わっている。この遺伝子の変異体の一つ1GF2rは、「天才」集団のほうが2倍もよく見られた。
  • ニューヨーク・タイムズ』は「高い知性に関わる遺伝子の初報告」と見出しを掲げた。プローミンの発見はさまざまな倫理的問題を巻き起こすのではないかと思った読者もおられるかもしれない。親は子供の1GF2r検査を許されるべきか?
    もし胎児が低IQを示唆する遺伝的特徴を示したら堕胎が許されるべきか?高いIQを与えるために、人に遺伝子改良を施すことは許されるべきか?IGF2rは人種によって保有率が違うのか?それを本当に調べるべきか?IQ関連の遺伝子研究は続けられるべきか?
  • 生命倫理学がこれらの厄介な問題のいずれに取り組むよりも先に、プローミン自身も含めて、遺伝学にとってより基本的な問題があった。この研究報告は確かなのか、である。本当にIGF2rは高IQを予言できるのか?天才は本当にこの遺伝子の変異体を持つことが常人の倍も多いのか?
  • 答えはノーである。当初の研究の数年後、プローミンは別の標本集団のIQとDNAデータを手に入れて追試をした。このたびはIGF2rと知性の間に相関性は見られなかった。プローミンは、善良な科学者の範を示して、先の自説を撤回した。
  • 実際この経緯は、遺伝学とIQをめぐる研究の一般的なパターンである。まずIQに関わる遺伝子変異を見つけたと言い出す研究者が現れる。そして新たなデータを手に入れると、先の主張は誤りだったと悟るのだ。
  • クリストファー・チャブリス率いる研究者チームによる最近の研究では、IQに関わる遺伝子変異についての12の有名な科学的発表を、1万人ものデータをもとに検証した。その結果、12の先行研究が報告した相関性のどれ一つとして再現できなかった。
  • これらの主張はどこがいけないのか?次元の呪いである。いまや科学界でははっきりしていることだが、人間のゲノムには数百万通りもの違いがある。ごく単純に言えば、数が多すぎて試験しきれないのだ。
  • 山ほど多くのツイートを調べて証券市場の上げ下げとの関連を調べたら、やがてある種のツイートがそれを解く鍵だという結論に達する。だがそれは、まったくの偶然の産物だ。
  • 山ほど多くの遺伝子変異を調べてIQとの関連を調べたら、やがてある種の変異体がそれを解く鍵だという結論に達する。だがそれも、やはりまったくの偶然の産物なのだ。

 

  • テラデータでゼネラルマネジャーを務めるスコット・ナウは、良書『その数字が戦略を決める』で、常連客が痛点に近づきつつあるときにカジノのマネジャーがどうするかを説明している。「顧客に言うのです。『今日はツキがもうひとつのようですね。当店のステーキハウスがお気に入りでしょう。どうです、奥様とご一緒にお食事などは?招待させていただきますよ』とね」
  • 無料のステーキ・ディナーなど気前がいいにも程があると思うかもしれない。だが実際には利己的な行動だ。カジノはただ、顧客が損をしすぎてしばらく戻ってこなくなるのを防ぎたいだけだ。先進的なデータ分析を活用して、長い目で見てできるだけ多くを顧客から搾り取りたいだけなのである。

  • ポパーはどんな社会科学も、さして科学的とは考えていなかった。これらの自称科学者たちの仕事の厳密さに、あまり感心していなかったのだ。
  • ポパーを義憤に駆り立てたものは何だったか?彼は往時の最高の知性ー最高の物理学者、最高の歴史家、最高の心理学者ーと交わるうちに、明らかな違いに気づいた。物理学者の話には信憑性があった。確かに彼らは間違っていたり意識下の先入観に誤導されたりすることもあった。だが物理学者は、世の中の深遠な真実を見つけようとし、それはアインシュタイン相対性理論で頂点に達していた。だが対照的に、世界第一級の社会学者らの話を聞いていても、箸にも棒にもかからないと思うばかりだったのだ。
  • こうした違和感を指摘したのは、ポパーだけではない。誰に聞いても物理学者、生物学者、そして化学者こそが本物の科学者だというものだ。彼らは厳密な実験を通じて物理的世界の働きを見出す。対照的に、経済学者、社会学者、心理学者らは空疎な専門用語を振りかざして大学の終身在職権をあさる脆弱な科学者に過ぎないと考える人は多い
  • そんなこれまでの真実を、ビッグデータ革命は一変してしまった。もしカール・ポパーが今日なお存命で、ラジ・チェッティ、ジャセ・シャピロ、エスター・ダフロ、そして不肖、私(なんちゃって)などの発表に接する機会があれば、当時と同じ印象は抱かないはずだ。

 

  •  そんな折、友人がジョーダン・エレンバーグの論文をメールで送ってくれた。ウィスコンシン大学の数学者であるエレンバーグは、いったい何人が実際に書籍を読み通すのかに興味を持った。そしてビッグデータを活用してそれを調べる妙手を考案した。アマゾンのレビュー欄では、人々は書籍中の文章をさまざまに引用している。エレンバーグは、書籍の前半の記述の引用回数と後半のそれとを比較することを思いついた。こうすれば読者がどれくらいある本を読み通したかを
    大まかに示す指標にはなる。この方法によれば、ドナ・タートの小説『ゴールドフィンチ』は、90 %以上の読者が読了していた。対照的に、ノーベル経済学賞を受けたダニエル・カーネマンの傑作『ファスト&スロー』は、およそ7%しか読了していなかった。この大雑把な測定方法によると、経済学者トマ・ピケティの『21世紀の資本』に至っては、世評の高さとは裏腹に、3%足らずだった。要するに、人々は経済学者が書いた本は読了しない傾向が強いのだ。