統計学をまる裸にする

＜アメリカの統計学啓蒙本を読んだことがない人・初学者にはおすすめ。一冊以上読んだことがあるなら、そこまで目新しい話が多いわけではない（いい本だとは思う）。

私は高校で物理学が大好きだった。でも物理学はスミス先生の講義で私が拒否してきたのとまったく同じ微積分に依存しているのに。なぜか？それは物理学には明確な目的があるからだ。高校の物理の先生が、ワールドシリーズの間に加速度の基本公式を使い、ホームランがどこまで遠くに飛んだかを計算する方法を教えてくれたのは忘れられない。これはクールだーそして同じ公式が、もっと社会的に重要な数々の形で使える。
大学に入ると、私は確率が心底おもしろいと思った。それが現実生活のおもしろい状況について洞察を与えてくれるからだ。今にして思えば、微積分で私がつまずいたのは、数学のせいではない。それが何のためのものか、だれも説明してくれなかったせいだったのだ。数式のエレガンスだけで夢中になる人でなければーそして私は絶対にちがうー微積分は単に面倒で機械的な数式の固まりでしかない。少なくとも私はそういう教わり方をした。

テスト得点統計のごまかしも、同じくらいまったくみごとなものだった。(ヒューストンであろうと、どこであろうと)テスト得点を向上させる方法のひとつは、教育の質を改善して、生徒がもっと学習し、テストでもっと良い成績を出すようにすることだ。テスト得点を向上させるもうひとつの(あまり高潔でない)方法は、成績が最も低い生徒たちにテストを受けさせないようにすることだ。成績が最も悪い生徒たちの得点を排除すると、たとえ他の生徒全員にまったく向上がみられなくても、学校・地区の平均得点は上がる。テキサス州では、州全体の学力テストを10年生でおこなう。ヒューストン学区では、最も学力の劣る生徒たちをなるべく10年生に進級させないようにしていたようだ。特にひどい例では、3年間9年生として過ごして、そのよま11年生に進級させられた生徒がいるー学力が劣る生徒を退学させることなく、10年生の標準テストを受けさせない、ずる賢いやり方だ(退学させると別の統計に表れてしまう)。

ロッド・ペイジがヒューストンの教育委員長在任中に、この統計のごまかしに加担していたかどうかは明らかではない。しかしかれは、退学およびテスト得点の目標を達成した校長に現金賞与を与え、目標を達成できなかった校長を解雇あるいは降格する、綿密な成績責任プログラムを実践した。校長たちは例外なくインセンティブに反応した。これがさらに大きな教訓だ。評価対象の人たちが、本来の目標に一致しない方法で自分たちを(統計上)良く見せかけることが絶対にできないようにしておくこと。

ニューヨーク州は、苦い経験を通してこれを学んだ。ニューヨーク州は、冠動脈血管形成手術(心臓病の一般的な治療法)をおこなう心臓専門医の患者の死亡率を評価する「スコアカード」を導入したのだ。これはまったく合理的で有用な、記述統計の使い方のように見受けられた。心臓専門医の執刀中に死亡した患者の比率は、知っておくべき重要事項だし、政府がそのデータを収集、公表するのも理にかなっている。そうでなければ、個人はこのようなデータにアクセスできないからだ。これは良い政策か？イエス。ただし、それがおそらく人を死なせる結果になったことを除いては。

心臓外科医は、当然ながら「スコアカード」を気にする。しかし執刀医が死亡率を改善する最も容易な方法は、死なせる人を減らすことではない。おそらくほとんどの医師たちは、患者を死なせないようにすでに懸命に努力している。医師が患者死亡率を改善する最も容易な方法は、重篤な患者の手術を拒むことだ。ロチェスター大学医科歯科大学院の調査によると、一見すると患者のために役立つスコアカードが、患者の不利益にもなり得るという：調査した心臓専門医の83％によると、公的死亡率統計のせいで、血管形成術が有効かもしれない患者が、それを受けられない場合があるというのだ。そして医師の79パーセントによると、個人的な医学的判断の一部が、死亡率データが収集、公表されることに影響を受けたという。この一見有用な記述統計学の悲しい矛盾は、心臓専門医たちが合理的な反応をして、治療を最も必要とする患者たちへの治療を差し控えたという点だ。
統計指標は、

『USNW』誌によると、「最も重要なのはどの性質に関する指標かというわれわれの判断にもとづいて、各指標には加重がかけられています」。判断と、恣意性とは別ものだ。国立大学および短大のランキングにおいて、最も大きな加重がかけられている変数は「教育的評判」だ。この評価の基盤となっているのは、他の短大\大学の職員たちが記入した「相互評価調査」と、高校の進路指導員たちを対象にした調査だ。マルコム・グラッドウェルは相互評価方式について、痛烈(だがユーモラス)な批判をしている。かれが引用したのはミシガン最高裁判所の首席判事が約100人の法律家たちに送付したアンケートで、このアンケートでは,法科大学院を質の順に10位まで選択するように求められていた。ペンシルバニア州立大学の名前も、法科大学院のリストの中にあった法律家たちはこれを中程に位置づけた。当時、ペンシルバニア州立大学に法科大学院はなかったのだ。
『USNWR』誌はたくさんデータを収集してはいるが、有望な学生たちの注目すべきことをこのランキングが示しているかどうかはわからない：その学校ではどれだけの学習がおこなわれるかということだ。フットボールファンは、パスレーティングの計算方法についてとやかく言うかもしれないが、その構成要素ーパス完了、ヤード、タッチダウン、インターセプトーがクォーターバックの総合的能力に重要であることは、否定しようがない。『USNWR』誌の基準だと、そうとは限らない。『USNWR』誌の基準のほとんどは、教育実績よりも、どんな資源を学校が投入しているか(例:どんな学生が入学しているか、教員陣の給料、常勤教員の比率はどれくらいか)に注目している。

マイケル・マクファーソンが指摘している通り、「在学中の4年間に受けた教育が生徒の才能を伸ばしたか、知識を豊かにしたかどうかについては,『USニュース』誌からは
まったくうかがい知ることはできません」。

これらはすべて、どうでもいいことのようにも思える。だがこれが、かならずしも学生や高等教育の益にならないことを奨励してしまっているらしいのだ。たとえば、ランキングの計算に用いられていた統計のひとつは、その学校の学生1人当たりの資金力だ。問題は、その資金がどれだけうまく用いられているか、示す指標がないことだ。少ない資金で高い効果を上げる学校が、順位付けのプロセスで不利になってしまう。また、短大と大学には多くの学生たちの出願を奨励するインセンティブがあり、現実的には入学できる見込みがない学生も数の内に含まれる。そうすることで、見かけ上は選択される可能性が高い学校になれるのだ。あやしげな出願に対応するのは、学校にとっても、そして実際に受け入れられる機会がないのに出願する学生にとっても、リソースの浪費だ。
筆者は『USニュース&ワールドリポート』誌のランキングが当分なくならないほうに賭けよう。バードカレッジの学長レオン·ボットスタインが指摘しているように、「人は簡単な答を愛する。最高なのはどこか？1位のところだ、と」。

1981年、ジョセフ·シュリッツ醸造会社は、低迷しつつあったブランド「シュリッツ」のため、おそろしく大胆で危険ともいえるマーケティング活動に170万ドルを投じた。スーパーボウルのハーフタイムに,世界の1億人が見守るなか、おもな競争相手である「ミケロブ」との試飲対決を生中継したのだ。さらに大胆なことには、この2種類のビールを飲む人を無作為に選ばず、ミケロブ愛飲家を100人選んだ。NFLのプレーオフ期間、シュリッツ社がずっと続けてきたキャンペーンの集大成だった。試飲は5回にわたってテレビで生中継され、毎回競合プランド(バドワイザー、ミラー、ミケロブ)の消費者100人が、愛飲しているビールとシュリッツの飲み比べをおこなった。この試飲はプレーオフ期間の試合の宣伝さながらに、毎回さかんに宣伝された(「シュリッツ対バドワイザー、AFC プレーオフ中に生中継」など)。

マーケティングメッセージは明白だった：別のブランドが好きだと思いこんでいる
ビール愛飲家も、飲み比べではシュリッツを選ぶ。

雇って、飲み比べを見守らせた。大観衆を前に生中継で飲み比べをさせるのはかなりリスクが高いことから考えて、シュリッツ社はよほどすばらしくおいしいビールを造ったんですよねえ？

かならずしもそうとは言えない。この策略ーこの言葉は、たとえビールの宣伝の話であっても軽々しく使ってはいないーがほぼ確実に良い結果をもたらすためには、シュリッツ社には凡庸なビールと、統計学に対するしっかりとした理解さえあればよかったのだ。実はシュリッツ社のビールと同じ価格帯のビールは、どれもほぼ似たり寄ったりなのだ。皮肉なことに宣伝活動はまさにその点を利用している。世間の典型的なビール愛飲家には、シュリッツ、バドワイザー、ミケロブ、ミラーの区別がつかないとしよう。その場合、どの2種類の目隠し飲み比べも基本的にはコイン投げに等しい。平均的には試飲した人の半数がシュリッツを選び、半数がシュリッツの「対戦相手」を選ぶだろう。この事実のみでは、たぶんあより効果的な宣伝にはならない(「ちがいがわからない人のための、シュリッツ」)。そしてシュリッツはまちがいなく、自社の忠実な顧客を相手には、この飲み比べをやりたくないはずだ。およそ半分が競合ブランドを選んでしまう。最も肩入れしてくれているはずの愛飲家が、飲み比べでライバルブランドを選んで
しまうと、見た目によろしくないーだがシュリッツ社はこれを、競合相手にやろうとしていたのだ。
シュリッツはもっと賢明なやり方に出た。この宣伝の賢いところは、飲み比べの参加者をライバルブランドが好きだと主張したビール好きに絞ったところだ。飲み比べがコイン投げにすぎないとしたら、バドワイザー\ミラー\ミケロブ愛飲家のおよそ半数がシュリッツを選ぶ結果になる。シュリッツがとても引き立つわけだ。バドワイザー愛飲家の半数がシュリッツを選びました！

飲み比べ参加者１００人のうち、少なくとも４０人がシュリッツを選べば、シュリッツ者は満足だとしよう。生中継での見比べに参加する１００人全員がミケロ分愛飲者だと告白していることを考えれば、立派な数字だ。そしてこれ以上の結果が出る可能性が非常に高い。飲み比べが本当にコイン投げ同様なら、基本確率から、少なくとも４０人がシュリッツを選ぶ確率は９８％、少なくとも４５人がシュリッツを選ぶ確率は８６％わかる。

さてシュリッツはどうなったか？１９８１年のスーパーボウルのハーフタイムに行われたの見比べでは、ミケロ分愛飲家のちょうど５０％がシュリッツを選んだ。

ここから得られる重要な教訓は２つ：確率が非常に強力なツールであること。そして１９８０年代の主なビールの多くは、全く差がなかったこと。

この種の情報を得て、正しく理解するだけで、意思決定もしやすくなり、リスクも明確になることが多い。たとえばオーストラリア運輸安全委員会は、交通手段ごとの死亡リスクを定量化した報告を発表している。飛行機は広くおそれられているが、民間航空機の利用に伴うリスクはわずかだ。オーストラリアでは1960年代以降、民間航空機の利用による死亡者は出ていないため、移動距離1億キロメートル当たりの致死率は、ほぼゼロ。自動車運転については、1億キロメートル当たりの致死率は0.5。非常に印象的なのが、バイクの数値だー臓器提供者をめざす人にはすばらしい。バイクの致死率は、自動車の35倍だ。

リソースに制約がある場合や、入手できるDNAサンプルがごくわずかの場合、あるいは汚染がひどく13の座を調べられない場合、事態はもっと興味深く、議論を招くものとなる。『ロサンゼルスタイムズ」は2008年に、DNAの証拠採用を検証する記事を連載した。特に『ロサンゼルスタイムズ」が疑問を呈したのは、当局が一般的に用いる確率は、偶然の一致の可能性を軽視していないかという点だった（全人口の遺伝子データは解明されていないため、FBIなどの搜查当局が法廷で提示する確率は、推定値といえる）。学問的な反動が生じたのは、アリゾナ州のある鑑識官が州のDNAデータベースで照合をおこなっていて、無関係の重罪犯2人のDNAが9個の遺伝子座で一致するのを発見したときのことだ。FBIによると、2人の無関係な人間で9個の座が一致する率は、1\1130億。その後ほかのDNAデータベースを調べたところ、1000組を超える組み合わせで、9個以上の座における一致がみられた。この件については当局と被告側弁護士たちに任せよう。ここでの教訓は、あのみごとなDNA分析の科学は、裏付けに用いられる確率次第ということ

ほとんどの統計本は、すぐれたデータが用いられることを前提にしている。料理本が、いたんだ肉や腐った野菜など材料として買ってこないことを前提にしているように。だが最高のレシピですら、傷んだ材料でつくった料理は救えない。統計においても然り。どんなに手の込んだ分析をしたところで、根本的に欠陥のあるデータの埋め合わせはできない。「入力がゴミなら結果もゴミ」と言われる所以だ。データは尊重されるべきだ。

統計学の教科書には、標本抽出法についてもっと詳細が盛り込まれている。調査会社や市場調査会社は、さまざまな母集団を代表するすぐれたデータを、最も費用対効果の高い方法で手に入れるために何日も費やす。さしあたって理解しておくべき重要なことはつぎの通り:

代表的標本はすばらしく重要。統計学が持つ最も強力なツールへの扉を開くからだ。
良い標本の入手は、思ったより困難。
すぐれた統計手法を悪い標本に適用すると、実にとんでもない統計的主張が出てくる。よいデータに悪い統計手法の場合よりひどい。
規模は重要で、大きいほど良い。

標本がいくら大きくても、標本構成のエラー、すなわち「偏り」を埋め合わせることはできない。悪い標本は悪い標本だ。スーパーコンピュータや、複雑な手法を使っても、ワシントンDCの住民を対象とした電話調査のみで回答者を抽出した大統領選全国世論調査の妥当性は救えない。ワシントンDCの住民は、投票行動が他の州の住民と異なるので、ワシントンDCの住民1000人でなく10万人に電話調査をしても、根本的問題は解決しない。実際のところ偏りのある大きな標本は、ほぼまちがいなく、偏りのある小さな標本より悪い。結果について、間違った自信をもたらすからだ。

『ニューヨークタイムズ』紙が、うつの治療に用いられる薬に関する出版バイアスについて掲載した記事の冒頭はこうだ:「プロザック、パキシルなどの抗うつ剤のメーカーは、政府の認可を得るためにおこなった治験の約1\3については、結果をまったく公表しておらず、これらの薬の実際の有効性について、医師および消費者の誤解を招いている」。これらの薬の有効性について、肯定的な結果が出た研究の94パーセントが公表されている一方、肯定的でない結果が出た研究のうち、公表されているのは14パーセントのみであることがわかった。うつに苦しむ患者にとっては重要な問題だ。すべての研究を考慮に入れると、抗うつ剤は偽薬より「ほんのわずか」すぐれているにすぎない。

この問題と戦うために、いまや医学誌では、後に研究を公表する場合は、開始時に登録するよう求めることが一般的になっている。これで編集者たちは、肯定的結果と否定的結果の率についての証拠を入手できる。スケートボードが心疾患に及ぼす効果を調べる研究が100件登録されて、最終的に肯定的結果を発表するために提出されたのが1件のみであれば、編集者たちは、他の研究が否定的結果であったと推測できる（あるいは、少なくとも他の研究が否定的結果であった可能性を調査できる）。

『ニューヨークタイムズ·マガジン』は、この思い出しバイアスの油断ならない性質について、こう述べている：乳ガンの診断は、女性の現在と将来を変えただけでなかった。過去も変えていた。乳ガンを発症した女性は(無意識のうちに)脂肪分の高い食事が素因だった可能性があると考えて、(無意識のうちに)脂肪分の高い食事を思い出す。このいわくつきの病気にかかったことが、ある人には、痛いほど覚えがあるパターンだ：彼女たちは、過去にこの病気にかかった無数の女性と同様に、記憶をたどって原因を探し、その原因を記憶に刻んだのだ。

思い出しバイアスは、縦断的研究が横断的研究より好まれることが多い理由のひとつだ。縦断的研究では、データはタイムラグなしに収集される。研究参加者には、5歳の時点で学業への取り組みについて尋ねる。そして13年後、同じ人物のもとをふたたび訪れて、高校を退学したかどうか調べる。横断的研究では、すべてのデータをある時点で収集する。18歳の高校退学者に、5歳の頃の学業への取り組みについて尋ねなければならない。本質的に信頼性が低いのだ。

慣行としては、帰無仮説が正しい場合に20回に帰無仮説は棄却する。もちろん、研究を20回やれば、あるいは単一の回帰式にクズ変数を20個入れれば、平均ではひとつ、統計的に有意だがデタラメな発見があるはずだ。『ニューヨークタイムズ·マガジン』は、医療統計家で気鋭の学者リチャード·ペトロからの引用で、この緊張関係を見事にとらえている。「疫学は実に美しくて、人間の生死に実に重要な視点を与えてくれるが、驚くほどのゴミ論文が刊行されている」。

2011年に、『ウォールストリート·ジャーナル」は1面で「医学研究の不都合なちょっとした秘密」という記事を載せた。「ほとんどの結果は、最高の査読雑誌に掲載されるものですら、再現できないのだ」(査読誌というのは、研究や論文が刊行を認められる前に、同じ分野の他の専門家が手法的な問題点がないかを査読する雑誌だ。

この「秘密」の原因のひとつは、第7章で述べた「出版バイアス」だ。研究者たちや医学雑誌が、「影響がある」という結果にばかり注目して、「影響がない」という結果は無視するのであれば、その薬が効果を持つという1本の研究を掲載して、それが効果を持たなかったという19本の論文はボツにすることになる。一部の臨床試験はまた、標本
サイズが小さく(めずらしい病気ではそうなりがちだ)、おかげでデータの無作為な変動が必要以上に注目されてしまう可能性はさらに増大する。加えて、研究者たちは、意識的にか無意識のうちにか、強いバイアスを持っているかもしれない。何か事前に強い思いこみがあったり、影響があるという発見のほうがキャリアにとって有利だという事実があったりするためだ(ガンに効かないものを見つけたところで、有名にも金持ちにもなれない)。

こうした各種の理由から、専門的な研究のうち驚くほどの比率が実はまちがっているのだ。ギリシャの医師で疫学者であるジョン·イオアニディスは、有力な医学雑誌3つに掲載された論文49本を検討した。どの調査も、医学文献で1000回は参照されているものだ。だがそうした研究のおよそ3分の1は、後の研究で否定されている(たとえば、検討された論文の中にはエストロゲン代替療法を推奨したものもある)。イオアニディス医師は、刊行された科学論文のうちおよそ半分は後にまちがいだと証明されると推計している。この研究は、『アメリカ医学会ジャーナル』に刊行されたが、これは研究対象となった論文が掲載された雑誌のひとつだ。これは確かに、頭の痛い皮肉を作り出す。イオアニディス医師の研究が正しいなら、かれの研究がまちがっている可能性も高いことになるのだから。

若いやる気のある教官たちは、高齢の古臭い教授たちに比べ、もっと教育熱心なのだ。多分年寄り連中は、１９７８年に使った黄ばんだ講義ノートをいまだに使っているのだろう。パワーポイントなんて、エナジードリンクの一種とでも思っているはずだーいや、エナジードリンクの何たるかさえ知らないかも。明らかにこのデータを見ると、古い頑固教師どもは首にするか、少なくとも潔く引退していただくべきだ、ということになりますよね？

キャレルとウェストは、入門講義で経験の豊かな教官に教わった数学や科学の学生たちは、入門講義で経験の浅い教授に教わった学生たちに比べ、必修の追加講義でも成績が高いことを発見した。・・・経験の浅い教師は入門講義で「試験にあわせた講義」をする可能性が高いということだ。