データ分析読解の技術 菅原琢 3分要約

3分要約

なぜデータ分析の読解が必要なのか

ビックデータなどの流行もあり,統計学に時代がきたと言われるが,いい加減な分析も多い。いい加減な分析は非効率であり不幸につながることもある。

データ分析の技術を見につけ,怪しい分析を多くの人が見抜くことができれば,怪しい分析の誤りを警戒することができる。

怪しい分析とはどのような分析か

 分析の際に重要となるのは因果関係。因果関係とはある要因を動かすと結果が変わるというような関係。結果をもたらす要因が何かを特定することが分析の目的となるため,以下のような場合に怪しい分析と言える。

・結果や主張に合わせて要因を決めている

・相関関係を因果関係と捉えている

・複雑な要因が絡む事柄でも,1つの要因に特定している

・データの取得法が適切でなく,歪みが生じている

・交絡因子の存在に気づいていない

怪しい分析を見抜くにはどうすれば良いのか

 多くの分析は数値(分析結果)とそれからわかる議論から成り立っている。そのため議論と数値のずれに注意することで怪しい分析を見破ることが可能。特に3つのことを意識すると良い。

・分析結果を批判的に読む:結果から要因を後付けで決めていないか,

・データ自体に潜む問題を感知する:データに歪みはないか。一部の人のデータから全体を推測するときにはデータの抽出方法が適切かどうか確認する。

・現象の背後にある因果構造を理解する:分析結果何が言いたいかを確認することで,分析者が結論ありきで分析を行ったり,自分の施策を過大評価していないか確認できる。

統計学の時代と言われるがいい加減な分析も多い

 ビックデータなどの言葉の流行で統計学の時代がきたとも言われ、データを分析すれば色々な問題が解決するかのようにいう人もいる。

 しかし、実際の社会ではいい加減な分析も多く、社会の非効率や不幸をもたらしている。

 本書では間違ったデータ分析を通じて、データ分析の間違いを見抜けるようにする構成になっている。

怪しい分析を見破るには議論と数字のずれに気づくことが重要

 最も重要なことは議論と数字のずれに注意しながら因果関係を考察すること。そのために必要になるのは以下の3つの技術。

・分析結果を批判的に読む

・データ事態に潜む問題を感知する

・現象の背後にある因果構造を考察する

 データの分析失敗を見抜くことは専門家や難しい数式を用いなくても可能。データ分析の間違いに気づける人が増えればデータ分析が世にもたらす不幸を減らすことができる。

因果関係をもたらす要因を見出すことが問題解決につながる

 データ分析に限らず、ある問題を解決したり、ある現象を分析する際に重要となる鍵となるのは、因果関係。

因果関係とはある要因を動かせば、結果が変わるという関係。問題の中に因果関係を見出すことができれば要因を動かして問題を解決に導くことができるようになる。

ただし、現実世界で要因を特定することは難しく、要因が複数あることも多い。まずは即座に原因や理由を特定するするような考えは捨てるべき。

 1番初めに思いつく要因は自分の先入観が入っている可能性も高く、複数の要因を考えることで回避することもできる。

複数の要因を思いつくためにはその物事や現象を理解することが必要。データ分析の技術以上に分析の前にある問題の因果構造の考察、分析対象の理解に対する理解が非常に重要となる。

分析を議論と数字に分別し,両者が一致していないと怪しい分析

日常のデータ分析を目にするときは、断片的な数字と一方的な分析者の主張のみで、与えられる情報が少ないため無批判に分析を受け入れてしまう。

そのためわずかな情報を読み解き、怪しいと感じられることがデータ分析の読解で重要になる。根拠として示されたデータ分析とこれをもとにした議論や主張のズレを感知することで、誤ったデータ分析に騙されないようになる。

分析結果を議論と数字に分別して、両者がどの程度一致するか解離しているのかを考えることが、データ分析に騙されるかの分かれ目になる。

怪しい分析を間違った分析にするには自説の根拠を確かめる

あやしい部分に気づいた後は怪しいを間違いに持っていくことが必要。相手の説ではなく自分の説の方に根拠があることを示せれば相手の説を間違いとすることができる。

自説の根拠を確かめるには以下の手順が有効。

1.議論となっている数字を観察する

2.数字の因果関係を探る

3.データを分析する

 まずは相手の議論と数字のズレに注意してデータを読み怪しいと気付ければ十分。その上で自分の説を用意し、その根拠を示せると素晴らしいと言えるレベル。

結果に合わせて要因を後付けで決めると問題を悪化させてしまう

 ある問題を解決するにはその問題を因果関係で捉え、その結果を生んだ要因が何かを探る必要があり、多くのデータ分析はこの要因の探索、発見を目的に行われる。

多くの間違った分析では特に根拠なく、結果に合わせて要因を後付けで決めていることが多い。結果から原因を決めつけてその適否を確かめない分析は問題解決に繋がらないばかりか問題を悪化させる可能性を生んでしまう。

 データ分析によって因果関係を主張するなら結果と要因の相関関係を根拠として示すべき。

結果と相関しそうな要因を考える上で有効となるのは

・結果を別のものに置き換えてみる:男余り→男性率

・データを細かくしたり、単位を変える:県のデータ→地域別に変えることで関係が見やすくなる

などの方法。ある結果が何らかの要因であるとデータ分析で示すことは複雑な事象や事情が絡み、難しい。一方で、データとその分析が何を示しているのかわかるようになればおかしな議論には騙されなくなる。

データそのものが歪んでいないかを確かめることも重要

 データ分析では、分析手法だけでなく、集められたデータがどのように作られたかを確認することが非常に重要。データが歪んでいると分析結果にもズレが生じ、ズレの生じた結果から要因を探すと間違った要因を要因と決めつけてしまう。

ただし、歪みのないデータを取得することは現実的ではなく、データの歪みは避けて通れない。またデータに歪みがあることが分かっていれば補正をかけ影響を小さくすることもできる。

通院者の血液検査の結果、約3%の人がコロナの抗体を保持していたから、県全体でも相当な人が感染しているはずとするような議論では、

・通院者と市民の性別や年齢構成が大きく異なっている

・一般市民の中で不健康な人ばかりを集めてしまっている

などのデータの歪みが考えられる。

前者については補正をかけることで影響を小さくすることが可能だが、後者を補正することは難しくデータの歪みをなくすことはできず、実際の感染者よりも課題な値となってしまっている。

データの歪みを避けられない場合は、歪みを前提にして分析を行うべき。

根拠となる数字があってもデータが歪んでいれば,誤った理解になる

 継続的な調査などでは、歪みかたが同じであれば、結果に与える影響は小さいくなるが、歪みかたが毎回異なると結果に与える影響はとても大きくなる。

特に分析者が歪みに気づかなかったり、適切なデータを用いていない場合も多く、分析者の視点に立ってどのように分析したのかを考えることもデータと議論のづれやデータの歪みに気づく上で有効。

特に何らかの選別の過程を経て、結果的に一部残った部分のみを分析することで誤った理解や知見を得てしまう生存バイアスには注意が必要。

特定の施策や方法の有効性を確かめる際に生存バイアスを考慮せずに分析すると施策や方法を過大評価してしまうことも多い。

次点バネは選挙で次点となった自民党公認候補者は次回の選挙で当選しやすいというもの。しかし落選者の中で、次回の選挙にも出馬する人自体が、当選見込みが高いため出馬しているため当選しやすいだけである。これは落選の中で次回も出馬することを決めた人=そもそも受かる人が多いという生存バイアスの例と言える。

これらの例では、根拠となる数字が提示されているため、疑わずに信じてしまうことも多い。根拠となる分析がどのような対象を想定しているか確認することでデータの歪みに気づけるようになる。

分析が間違っているかの判断には交絡因子を探すことも有効

ある分析が誤っているかを確認する方法の一つに交絡因子が挙げられる。交絡因子は結果と要因の間に割って入って三角関係を作る別の要因のこと。

ある分析者がAとBの相関関係をもとに、AがBの要因であると主張してそれをおかしいと感じた際に、AとB両方に影響を与える交絡因子を示すことができれば、元の説への強い反論となる。

少年院や刑務所を出た人の再犯率が職についているほど低いというデータから、出所者の就職支援を行えばさらに再犯率が下がるのではという説がある。

しかし、職があると再犯率が低いとするのは、ただの相関関係であり、実際には年齢、出所者の素行などが交絡因子となっている可能性が高く就職支援を行なっても、これ以上再犯率を下げることは難しい可能性が高い。

交絡因子を見つけるには、結果と要因とされているものそれぞれの要素の因果関係にある要素を別々に考え、思いついたもので結果と要因両方に影響を与えそうなものを考える、元の主張の因果関係と反対の事実を仮定してみるなどの考え方が有効。

社会現象や人間の行動の因果関係は本来複雑で他の要素の影響を受けずに2つの要素だけで因果関係が成り立っている場合の方が珍い。要因と結果が一つづつで構成されるような場合は注意が必要。

相関関係=因果関係ではないことに注意する

2つの要素間の相関関係を因果関係と主張するデータには注意が必要。相関関係=因果関係ではないことを意識する必要がある。

偽の相関発生しやすいパターンには以下のようなものがある。

1.時系列データ

期間を区切って測定したり集計した一連のデータのこと。因果関係がなくても相関しやすい。東京の気温と高齢率は相関関係にあるが、どちらも年々上昇傾向にあるため因果関係ではない。

2.地域別データ

地域の規模が異なるがそれを考慮しないと偽の相関関係を示しやすい。地域の人口によって上下するような要素同士には相関関係がなりたりやすい(RT数と得票数、ゆるキャラの人気度と宿泊者数など)。人口あたりに直すなどの工夫が必要になる。

分析の背景を確認することも分析の間違いを見抜くためには有効

誤ったデータ分析が新聞などでも掲載されてしまうことも少なくない。記者にデータ分析の知識がなく相関関係=因果関係と捉えてしまう、わかりやすさを求めすぎていることが原因になっている。

怪しいデータを見破るには分析事態を批判的に見るだけでなく、データの出どころ、何のためにデータを作成したのかなども考えるとよい。

自分の主張に会うようにデータ分析したり、目立つために相関があるように見せかけた分析をみやぶるには,分析の結果何が言いたいのか(自分の施策が有効なことを言いたい、自分の収集したデータの有効性を示したいなど)その背景を確認するとよい。

交絡因子の存在=分析の間違いではない

世の中のあらゆる出来事はいろいろな要素が互いに関わった複雑な因果構造を持っているため、二つの要素の相関関係を因果関係と主張するようなデータ分析は間違っているのではと注意して読むべき。

相手の分析の怪しさを指摘するには交絡因子を探すことが有効だが、交絡因子を見つけたら分析者の主張を否定できるわけではない。

交絡因子が元の主張の要因と結果それぞれと相関して、交絡因子を考慮したときに元の要因と結果に相関がなくなれば強い交絡因子、相関が弱まるものの残る場合は弱い交絡因子となる。交絡因子を用いて元の分析を批判する場合は交絡因子の強弱を判断する必要がある。

新聞を読むことは学力テストの点数が良いという主張に対し、両親の経済状況を交絡因子として指摘したりやテストの点数が良いから新聞が読める逆の相関ではなどの主張がされることは多い。

しかし、親がお金持ちでも直接学力が上がるわけではなく、学力に直接影響するのは通塾、読書週間、両親の教育姿勢など。新聞の閲覧習慣もその影響の一つの可能性もある。

この例では経済状況が交絡因子であることは確かだが、新聞の閲覧習慣が学力に影響を与える可能性を否定できるわけではない。

 また学力が上がることで新聞を閲覧するようになり、さらに知識が増えたり、考えることで学力が上がる可能性もあるため逆の相関があっても相手の主張を全否定できるわけではない。

誤った分析は害悪,多くの人がデータ分析の誤りに警戒する必要がある

データ分析という便利な道具を手に入れても、適切に使えず我田引水、自画自賛などのために利用されるだけでは社会にとって害悪でしかない。

外部からの指摘や議論で怪しい分析の蔓延を抑制するためにも多くの人がデータ分析の誤りを警戒し、怪しい議論に立ち向かっていくことが必要になる。

コメント

タイトルとURLをコピーしました