- 本の概要と感想
- 第1章 根拠のない通説にだまされないために「因果推論」の根底にある考え方
- 第2章 メタボ健診を受けていれば長生きできるのか因果推論の理想形「ランダム化比較試験」
- 第3章 男性医師は女性より優れているのかたまたま起きた実験のような状況を利用する「自然実験」
- 第4章 認可保育所を増やせば母親は就業するのか「トレンド」を取り除く「差の差分析」
- 第5章 テレビを見せると子供の学力は下がるのか第3の変数を利用する「操作変数法」
- 第6章 勉強ができる友人と付き合うと学力は上がるのか「ジャンプ」に注目する「回帰不連続デザイン」
- 第7章 偏差値の高い大学に行けば収入はあがるのか 似たもの同士の組み合わせを作る「マッチング法」
- 補論 因果推論の5ステップ
- おわりに
本の概要と感想
物事の有効性を知るためには因果関係か相関関係を理解することが需要
二つの事柄がある時、
どちらかが原因となっていてもう一つが結果➡因果関係
二つの事柄に関係はあるが原因と結果ではない➡相関関係
相関関係を因果関係と勘違いすると、原因のように見えることがもう一度起きても、同じ結果が得られないため、時間、お金の無駄になる
因果関係かどうか見極めるには原因と思われる事柄を起こす(=事実)と起こさなかった(=反事実)を比べる必要がある 現実的に反事実を観察することは不可能なため、もっともらしい値で穴埋めする必要がある
穴埋めするには原因が起きた群(=介入群)と原因が起きなかった群(=対照群)の比較が必要となる 二つのグループ分けの際には特に原因以外に結果に影響が与えるものがないかを特に注意する必要がある
あくまで穴埋めに過ぎない最もらしい値を反事実にどのように近づけるか(介入群と対照群をうまく作る)、違う部分はないか(交絡因子や偶然でないかなど)を常に考えておく必要がある
広告と売り上げのような様々要因で変化するものを例とされていて、因果推論を行う際の反事実を想定する手法がわかりやすく学べる
第1章 根拠のない通説にだまされないために「因果推論」の根底にある考え方
2つの事柄(=変数)が因果関係であるかを明確にするのが因果推論
因果関係を確認する3つのポイントは
1.全くの偶然ではないか
2.第3の変数は存在していないか(結果と原因両方に影響する=交絡因子の存在)
3.逆の因果関係は存在していないか(原因➡結果ではなく結果➡原因となるケース)
この3つが存在していないか確認するには原因が起こった事実と原因が起こらなかった反事実を比較する必要がある
例えば広告を出したから売り上げが増えたと考えるときは、広告を出さなかった時の売り上げと比較する必要がある
反事実は観測不可能なため、もっともらしい値で穴埋めする必要がある
もっともらしい値を出すには比較可能なグループを作り出すことが最も重要となる
第2章 メタボ健診を受けていれば長生きできるのか因果推論の理想形「ランダム化比較試験」
対象をランダムに分け片方にのみ処置を行い(=介入群)行わなかった(=対照群)と比較し処置と結果が因果関係であるかを判別する
このやり方がランダム化比較試験 ランダムに振り分けることで介入群と対照群の処置前の差をなくすことが重要 もし介入群に処置を行わなかった時の結果つまり反事実を対照群の結果で穴埋めする方法 ランダム化比較試験は因果推論のなかで最も正確な試験
例えば、メタボ健診に行く人と行かない人で比べてしまうと行く人のほうがもともと健康意識が高く長い生きにつながっているためランダム化比較試験とはならない
同じ条件(年齢、健康状態など)の人をランダムに振り分け片方にメタボ健診を行い、片方に行わないとすればランダム化比較試験となるが現実的に行うのは困難
実際にメタボ健診と長生きには因果関係が見られていない
日本では海外で因果関係が認められなかったが、メタボ健診がスタートした 小規模でランダム化比較試験をして、効果があってから、全国で行えば有意義に税金をつかうことができた
第3章 男性医師は女性より優れているのかたまたま起きた実験のような状況を利用する「自然実験」
ランダム化比較試験は正確だが、倫理的に難しい、ランダムに分けること自体が難しいなどで実施できない場合も多い
その場合、実験値ではなく調査などから得られた観察データを用いて分析することとなる
法律や制度、自然災害などで偶然、介入群と対照群に分かれるような状況を見いだし比較する方法を自然実験と呼ぶ
例えば広告と売り上げの関係では、たまたまチラシを配る予定の店が配れないトラブルがあった場合は、配った店と配れなかった店を比較することで、自然実験による因果推論をすることができる
他にも双子の出生時の体重と健康を比較することで、出生体重と健康の間の因果関係を分析できる
➡出生時の体重が重いほど健康状態は良い
日本の小さく生んで大きく育てるは技術の発展した現代では根拠のない通説
第4章 認可保育所を増やせば母親は就業するのか「トレンド」を取り除く「差の差分析」
自然実験のような状況は日常的に生じるものではなく、多くの場合適応できない
観察データと統計的な手法からランダム化比較試験を実施したような状況を作り出すのが疑似実験
広告と売り上げの分析をする際に、広告を出す前後での売り上げを比較するだけでは因果推論はできない その理由は以下の通り
・時間とともに起こる変化(トレンド)の影響を考慮できない
・仮に広告によって売り上げが上がっても平均に回帰しているだけ
このような原因を排除するのが差の差分析 トレンドが同じ(売り上げでいえば、売り上げの推移が同じ店舗同士)ものを介入群と対照群にわけることで因果推論を行う
トレンドが類似した2地域で片方が最低賃金を上げ、片方が上げないデータを分析すると最低賃金の増加は失業率の上昇につながらないことを確認できる
これも差の差分析の例となる
第5章 テレビを見せると子供の学力は下がるのか第3の変数を利用する「操作変数法」
結果には影響しないが、原因には影響を与える第3の変数を操作することで因果推論をする手法を操作変数法と呼ぶ
広告と売り上げの例ではキャンペーンなどで広告費が下がれば売り上げには直接影響しないが広告を出す数は増加する
広告費減少➡広告増加➡売り上げ増となれば、広告費を第3の変数として因果関係と予測できる
広告費減少➡広告増加➡売り上げ変化なしであれば、因果関係ではないと予測可能
第3の変数と結果に影響する第4の変数が存在しないかに注意する必要がある
母親の学歴と子の健康の因果推論を行う場合、親の17歳時の自宅と大学の距離を第3の変数とする 自宅と大学の距離は学歴に影響を与えるがこの健康には影響はない
また、自宅と大学の距離と子供の健康両方に影響がありそうな項目もないため操作変数法が利用できる
結果は大卒以上の母親の子供は健康状態が良好といえるというもの
第6章 勉強ができる友人と付き合うと学力は上がるのか「ジャンプ」に注目する「回帰不連続デザイン」
恣意的に決定した値前後を介入群と対照群に分けてそれぞれの結果から因果推論を行う手法が回帰不連続デザイン
広告と売り上げの関係では従業員50人以上の店で広告を出すとすれば、48、49人の店を対照群、50、51人を介入群として売り上げを比較することで広告の効果分析が可能となる
介入群と対照群の売り上げに差がある➡因果関係あり
介入群と対照群の売り上げに差がない➡因果関係なし
この際の50人をカットオフ値といい、カットオフ値が恣意的であること、カットオフ値周辺で結果に影響を与える要因がないことが必要となる
入試の合格ラインをカットオフ値としてギリギリ合格して高校生(介入群)とギリギリ不合格な高校生(対照群)を比較するとその後の学力に明確な差異はない
賢い友人を持っても賢くなるわけではないという結果
第7章 偏差値の高い大学に行けば収入はあがるのか 似たもの同士の組み合わせを作る「マッチング法」
介入群によく似たペアを対照群から探して比較する方法がマッチング法
売り上げと広告の関係では、広告を出した店舗と出さなかった店舗の店長の年齢、店舗のある地域の人口、平均所得が類似した店舗同士を比較することで因果推論が可能となる
この際の年齢などを共変数と呼び複数の共変量を組み合わせる手法をプロペンシティ・スコア・マッチングと呼ぶ
プロペンシティ・スコア・マッチングが成り立つには結果に影響を与える共変量がすべて数値化されていること すべての共変量が計算に用いられていることが必要
大学の偏差値と収入を調べるために共変量を年齢、生まれた場所、学力テストの成績、両親の学歴や職業としマッチング法で分析を行った
共変量が類似していて偏差値の高い大学に行ったグループ(介入群)と低いグループ(対照群)を比較しても有意な差は見られなかった
補論 因果推論の5ステップ
因果推論は以下のステップ行う必要がある
1.原因が何か
2.結果は何か
3.偶然でないか、交絡因子が存在しないか、逆の因果関係は存在しないかを確認
4.反事実を作り出す
5.比較可能なように調整する
おわりに
ビックデータが流行語となり、データを用いて分析は多いが、相関関係を因果関係と誤認すると誤った判断のもとになる
海外ではエビデンスに基づく(=因果関係にあることがわかっている)政策が多く見られている
日本でも一時的な政治的流行に左右されやすい政策をエビデンスに基づくものにする必要がある
そのためには市民もどの政策に因果効果があるかを見極める必要がある
コメント