読者です 読者をやめる 読者になる 読者になる

データサイエンティストが創る未来 これからの医療・農業・産業・経営・マーケティング

 ビッグデータは強力な手段になりうるが、実のところ、限界も抱えている。コンテンツに―測定内容と測定方法に―大きく左右されるのだ。データはいつでも集められる。パターンは探せば見つかる。だが、そのパターンに意味はあるのか?本当に知りたいものを測定できているのか?意味のあるものを測定する代わりに、図りやすいものを測定していないだろうか?測定すべきものと測定しやすいものは相容れない。・・・「測定できないものは管理できない」。これは、統計学者であり品質管理の専門家でもあるW・エドワーズ・デミングの言葉とも、マネジメント研究の第一人者ピーター・ドラッカーのコトバとも言われている。・・・「測定できるものがすべて重要とは限らず、重要なものがすべて測定できるとも限らない」。アルベルト・アインシュタインの言葉として引用されることも多いが、もとは社会学者ウィリアム・ブルース・キャメロンの言葉だ。・・・ビッグデータによる意思決定の恩恵を受けるには、二つ目の言葉が示す謙虚さを忘れないことが大切である。

「成果はいつも簡単に測れるとは限らない」というテーマで推薦文を書いたらしい。ジェフの才能は学校の成績にはなかなか反映されないが、自分は彼のことを「真の天才」だと思っている、と書いたそうだ。・・・ラチャナ・フィッシャーはジェフのその後を知らずにいたが、華々しいキャリアを積んでいると知って嬉しそうに皮肉を言った。「データと数字を駆使して人々を分析する仕事をしているくせに、彼自信は、きっとどの枠にも収まらないんでしょうね」

ジェフリー・ハマーバッカーは今もあまり変わらない。教室だろうと書物の中だろうと、知的権威と見るや懐疑的になり、ややもすると傲慢とも言える態度を取る。また、新しいテーマを探求するときには、「3冊ルール」を守っていた。著者の偏見を差し引くために、見解の異なる本を少なくとも3冊は読むようにしているそうだ。自己流の独学にこだわる姿勢―独自にデータを集め、興味の向くままに研究するスタイル―は、在学中も多くの衝突を生み、教師を苛立たせ、両親を当惑させた。・・・自分という「学習マシン」を最適化するためにそのようなアプローチをとっているに過ぎない。チュートリアルを自分でデザインするようなスタイルで学ぶのが好きらしい。「僕は、誰かの話を拝聴して学ぶなんてことはしない・・・文献を読み、人々と話、そのやり取りの中で学ぶんだ」・・・「抑えがたい好奇心がDNAレベルで組み込まれているのね。彼にとって、読書はあくまで学習手段なのです」

データサイエンティストのあるべき姿・・・卓越した技術を計算と数学の枠を超えた実世界へのいきいきとした興味に結び付けられる人物。技術が求められるのは当然として、データサイエンスは幅広い分野にまたがり、実験による発見の上に成り立つものなので、オープンマインドな知的好奇心は貴重な資質となる。IBMが推進する大学プログラムの主任であるジム・スポラーは、そのような人物を「T型人間」と呼ぶ。深い技術知識と浅く広い興味を合わせ持つからだ。T型人間は、技術の世界はもちろん、ビジネス、社会政策、学問の世界でもイノベーションをもたらす起業家として活躍できる。また、分野の異なる人々ともうまく意思疎通ができるので、チームワークにも長けている。

データ・パラドックスとでもいおうか、どこの世界でもデータは増える一方なのに、その恩恵を享受できている分野はほとんどない。供給ばかり増えて、活用力が追いついていないのだ。・・・「情報過多」という言葉は、1960年台には既に登場しており、1970年に、未来学者アルビン・トフラーがベストセラーFuture Shock(未来の衝撃)で用いたのをきっかけに、一気に世間に広まった。

 優れた教育者は大抵そうだが、バックマン医師も、例え話を用いて説明することが多い。彼に言わせれば、医療データは、未開拓の天然資源と同じである。「地中深くまで添削して汲み上げる原油のようなものです」。ただし、データという名の原油を資源として活用するには、まだこれから灯油やガソリンに精製しなければならない。しかも、データマイニングの場合は、掘削(くっさく)に必要な内燃エンジンや自動車、道路に相当するものがなく、精製品の査定法や使用法も定まらず―要するにエコシステムをこれから整える必要がある。

 IBM基礎研究所・・・保険研究センターのミッションは、人口統計学的に同じ層に分類されながらも他の人より保険リスクの低い人々について、データとアルゴリズムを駆使し、これまで認識されてこなかった属性を特定しようというものだった。ところが、このミッションは保険数理士たちの抵抗に遭う。保険のことなら外野からきた数学屋よりも自分たちのほうが知っている、というわけだ。しかしデータ第一主義の世界では、これまで知られていなかった新たな関連や相関が見つかれば、それがどんなに思いがけない事象であっても、素直に受け入れる必要がある。・・・長年培われてきた文化こそが最大の難関でした。結局、保険研究グループは解散になり、IBMの数学者たちは別の任務に回された。

アイパッドの市場調査はどれくらい行ったのですか?」と質問すると「まったくしていない」とジョブズは答えた。「消費者が何を求めているのかは、消費者に聞いたってわからない」。消費者の声ではなく、自分の直感に耳を澄ましたということだろう。ジョブズはハイテク製品の天才だったかもしれないが、彼の直観は魔法ではない。経験と知識に基づき、自分の中に世界観や世界モデルを築き、磨き上げてきた結果が直観となって現れる。経験に順応する世界モデルを自分の中に構築できる能力こそが、人間の知能の特徴である。人間が持つ認識力の強味と弱味をもっと綿密に調べれば、データサイエンスを人類のためにどう役立てていけばいいのか、手がかりが得られるだろう。それはつまり、人間と機械の意思決定プロセスに見られる明確な違いを問うことになる。

グーグル、フェイスブックツイッター・・・彼らは広告枠を売って稼いでいるため、コンピューターサイエンティストの優秀な頭脳が、ターゲット型オンライン広告にばかり費やされる。・・・同世代のトップクラスが、人々に広告をクリックさせることばかり考えているなんて、あんまりだ。この指摘は真理をついているように思う。だが同時に、新しいテクノロジーはまず一番簡単に稼げるところに導入され、そのあとで広く浸透していくのが世の常だ。印刷機が最初に世に出た時も、グーテンベルク聖書の他に、まず印刷されたのは、宗教冊子と政治的な論説と、ポルノだった。知識を民衆に広め、大衆を教育するための媒体となっていったのは、そのあとだ。

ウェブ業界でABテストとして知られる実験で、大抵は、単純な無作為化試験で最善策を調べる。例えば、デザイナーはユーザーのステータス更新アイコンの位置を変更した新しいページレイアウトを提案してきた場合、フェイスブックのユーザーをページデザインを変更しない群(A群)と、ページデザインにデザイナーの提案を反映させる群(B群)に無作為に割り付けて比較検討するのである。このようなABテストは、今ではウェブサイトの開発、オンライン広告、マーケティングなどのために定期的に行われている。だが、ハマーバッカーがデータチームを発足させる前は、フェイスブック社内でABテストは全く行われていなかった。

テューキーは「データ第一」の精神の生みの親であり、データ・ディスカバリと意思決定に関する考え方にコペルニクス的な変革をもたらした。「仮説を立ててからデータを見て学ぶのではなく、まずデータを見て、そこに何が見えるかを知ろうとする」のがデータ第一の精神だ。

ジョン・テューキー - Wikipedia

技術者を大学に呼び戻し、世界的に見てとくに重要となる科学的問題に取り組んでもらわなければなりません。人々に広告をクリックさせる方法ばかり考えさせておくわけには行かないのです。

ハマーバッカーも、個人的興味、個人的能力、社会のニーズ、問題の扱いやすさという4つの基準に従って仕事を選んでいる。要するに、エンジニアにとって仕事は「知的な楽しみであり、意義のあるものであり、実現の可能性のあるもの」でなければならないのだ。

2008年に同様にフェイスブックを退社したジェフ・ハマーバッカー 氏も「ずいぶんたくさんの難しい問題を解決したものだった」と同社で 働いた時期を振り返った上で、「5年たてばどうなるかは何となく分か っていた。それは新しいことではなくて、業務の回転と効率性が中心に なっていくということだった」と述べた。 

 ハマーバッカーは、「大丈夫、自分が本当に好きなことをしていれば、ライフワークバランスなんて気にならないよ」というなんとも無責任な言葉でゼイリガーを安心させた。

データは文脈(コンテクスト)の中に置かれてこそ力を発揮するのだ。データが蓄積されれば、より細部まで描き出せるようになり、描き出されたものは、知識となる。それが、データを理解するということだ。変化に富む大量データの供給源を新たに確保すること。それも役にはたつし、必要なことだ。しかし本当に大切なことは、重要な洞察や発見を生むような形で「点と点をつなぐこと」なのだとアダムスは言う。

相関の持つ威力がよく分かる輝かしい例として「インフルトレンド」というグーグルのサービス・・・インフルエンザの発生を公的機関の統計発表よりも2週間ほど早く予報・・・公衆衛生に役立つデータ駆動型の早期警告システム・・・グーグル検索による問い合わせ情報と医師から疾病対策センター(CDC)への報告に基づく行政の統計情報とを過去数年分について照合したところ、相関が見つかった。・・・2009年、このサービスは、実際にH1N1型インフルエンザウイルスの広まりを当局の報告より前に予測した。・・・失態を演じることに・・・インフルトレンドは流行のピークとなる1月の米国人の罹患率を約11%と予測したが、その後のCDCの発表は約6%で、2倍に近い開きがあった。・・・ニュース報道やソーシャルメディアの影響を受けてインフルエンザ関連の検索件数が急増したものの、蓋を開けてみたらそれほどでもなかった、ということのようだ。・・・グーグルの開発者らが作ろうとしたのは、あくまで「補完的なシグナル」として使えるツールであって、単独で使える予測ツールを目指していたわけではない。

人間は、現実世界を経験しながら物事を「理解」していくが、コンピュータは現実世界を経験できない。人工知能(AI)が進歩するということは、機械が機械なりの方法で-人間のやり方とは全く異なる方法で-ますます見たり、呼んだり、聞いたり、話したり出来るようになっていくということだ。IBM音声認識と自然原書処理の草分け的存在であるフレデリック・イェリネクは、かてつてこれを「飛行機は翼を羽ばたかせない」という例えで説明した。

ビクター・マイヤー=ショーンベルガーとケネス・クキエは、共著『ビッグデータの正体』の中で、相関のほうが優位となる場合もあると力強く述べている。「因果のメカニズムまで明らかにするのが理想だと考えるのは、自己満足にすぎない。そのような思い違いは、ビッグデータによって覆される」

バーナーはビッグデータを支持しているが、手放しで賛成しているわけではない。理論や世界モデルがなくても相関さえあれば十分だとする徹底したデータ・イズムには懐疑的だ。「そのような考えが、金融危機の際に私達をトラブルに陥れたのです」・・・「相関だけで十分だという人々には、是非考えなおしてもらいたい」

グーグルのリサーチ・ディレクター、ピーター・ノーヴィグも、『データの不合理な有効性』と題したグーグルのチーム共著論文の中で、・・・単純なモデルと大量のデータの組み合わせは、常に、わずかなデータに基づく精巧なモデルに勝る・・・だからこそ、データを追跡せよ・・・社会学は、簡潔な数学理論に対して物理学のようには屈しない、ということだ。「とはいえ」とフェルッチはブログの投稿で解説を加えている。「方法論にはやはりモデルが関係してきます。理論は終焉したのではなく、新たな形へと広がっていくのです」

http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/35179.pdf

ロバート・ゴードン・・・消費者向けエレクトロニクス分野の技術革新・・・より小さく、より賢く、より高性能になっているが、過去に屋内トイレ、電気照明、自動車が果たしてきたような労働生産性や生活基準を根本から変化させるようなものではない。・・・想像力が欠如していると行って非難する人もいるが、「しかし、わたしはイノベーションの終焉を予測しているのではなく、ただ、過去の偉大な発明に比べて、未来の発明は有用性の面で劣ると言っているだけだ」・・・ポール・クルーグマン・・・10年前、人工知能分野は失敗続きだった。だが、その後、何かが起きた-音声認識機械翻訳、自動走行車など、少し前まで冗談としか思えなかったことが、いつの間にか現実になろうとしている・・・人工知能は、ビッグデータや相関を駆使してアルゴリズムを実装します。


人間の学習について理解することと機械学習を開発することは、陰と陽の関係にあります。陰と陽が交差し、組み合わされた場所でわたしは生きているのです。


エマニュエル・ダーマン・・・物理学は神を相手にする学問であり、物理の法則はそう簡単に変更されることはない。一方、金融が相手にするのは神の創造物であり、市場の資産の価値は刹那の意見にもとづいて評価される。

物理学者、ウォール街を往く。―クオンツへの転進

物理学者、ウォール街を往く。―クオンツへの転進

 

 マッキンゼー・グローバル研究所は、米国内のみを対象に、ビッグデータ職の求人市場調査を実施した。同社の推定によれば、高度な解析技術を備えた技術者14万~19万人異常、データに精通した管理職150万人以上を社員の再教育や新規雇用で確保する必要がある。・・・データ職の求人市場に相当な拡大が見込まれることを論証している。と同時に、・・・データサイエンティスト(高度な解析スキルを備えた人々)は前衛部隊になりうるが、データ駆動型社会に向けた進撃の速度を決定づけるのは地上部隊、すなわちデータに精通した管理職たちであるという点だ。マッキンゼーの計算では、データに精通した管理職に対する需要はクオンツに対する需要の約10倍にもなる。ビジネス分野においても他分野においても、そのような「データ指向の人々」が大勢必要とされているのである。

データサイエンティストが創る未来 これからの医療・農業・産業・経営・マーケティング

データサイエンティストが創る未来 これからの医療・農業・産業・経営・マーケティング