誰もが嘘をついている セス・スティーヴンズ=ダヴィッドウィッツ 光文社 まとめ

本の概要

 ビックデータの重要性はただ量が多いだけではなく、そこから正しい情報を抽出できるようになったこと

 特にグーグルの検索の解析からは一般の調査では見えない人々の偽りない本音を知ることができる

 世論調査で当選が難しいとされたトランプ大統領も、グーグル検索では当選の兆しが見えていた 

 ビックデータの力には以下のようなものがある

1.かつては推測するしかなかったテーマのデータが手に入る

 ➡データを取れる範囲が広がった、言葉や写真もデータとして分析できるようになった 

2.正直なデータをもたらしてくれる

 ➡各種の調査にはいいずらいことも、グーグル検索では検索している

3.小さな部分集合に絞りこめる

 ➡データを絞り込んでもデータ数が多ければ、絞り込んでも信頼度が高い 自分と同じ興味や好みを持つ=自分の分身を探す精度が上がる➡レコメンド機能に利用される

4.簡単に比較対象試験ができるため、因果関係の検証が可能である

 ➡通説が本当かどうか検証できるようになった

 一方、多くの変数(次元)を使い、それより少ない観察を行うと必ずただの偶然で、ある変数と結果が相関しているように見えてしまう。このような次元の呪いはデータ数が豊富ゆえに起こること

 また倫理面にも注意が必要

 検索結果から個人レベルの犯罪可能性を調査することなどには慎重になるべき 次元呪いによって導かれた誤った仮説が新しい差別を生み出すことにつながりかねない

 ビックデータによって今までと何が変わるのか、何ができるのか、どんな力があるのかを分かりやす理例で知ることができる。

序章 今起きているビックデータ革命

 トランプ大統領の当選は難しいと大半の世論調査で考えられていたが実際には当選を果たした この徴候は実はネット上では確認されていた

 人がグーグルで検索したことには、世論調査には明かさない本音や自分でも理解していない本音が反映されている

 近年の大統領戦では二人の候補者を同時に検索するときに名前が先に来たほうが当選している

 世論調査では人種差別はしていないといっても、ネットでは人種差別的な検索を行っている 検索の多い地域では実際にオバマの得票率が従来の民主党候補に比べて、はるかに低いことも明らかになっている  ビックデータが話題になっているが、重要なのは膨大なデータではなく、正しいデータを抽出すること 

 グーグルでの検索データも規模が大きいからでなく、心情を吐露しているから価値が高 い

第1章 直感は裏切り者

 データサイエンスはデータにパターンを見いだし、ある変数が他の変数にどう影響するかを予測すること

 すい臓がん患者は癌の診断前に、腰痛を検索したのち肌の黄ばみを検索していた(腰痛の身を検索した場合はすい臓がんではなかった)

 この例は直観的にも受け入れやすい結果である

 一方、共通の友人を持つ夫婦のほうが円満というイメージがあるが、実際には別の社交集団を持つほうがうまくいくというデータがある

 人は自らの経験を買いかぶる、劇的な出来事に引き付けられるため直感に頼ると世の中のありようは見誤ってしまう

 貧困家庭で育つほうが競争の激しいスポーツで抜きんでるのに有利というのも誤った通念 NBA選手を調べると豊かな地域の出身者のほうが多いことがわかる

 貧困過程は身長が小さい、社会性がなければ大成できないなどがその理由

第2章 夢診断は正しいのか

 フロイトは夢に潜在意識が現れるという理論を持っていたが、データでは否定されえている 

 一方で、幼少期の体験が性衝動に影響する理論についてはグーグルの検索などでは裏付けがとられている

 このような検証はビックデータなしでは考えられなかった

 ビックデータには独特な力が備わっている

1.かつては推測するしかなかったテーマのデータが手に入る

2.正直なデータをもたらしてくれる

3.小さな部分集合に絞りこめる

4.簡単に比較対象試験ができるため、因果関係の検証が可能である

第3章 何がデータになるのか驚くべき新データの世界

 失業率のデータは多くの金融、証券会社がいち早く得たい重要なデータだが

 正式なデータは3週間遅れのデータになっている

 失業率と相関するグーグルの検索はポルノサイトやソリティアなど つまり失業者は暇つぶしを検索している 暇つぶしの内容はかわるものの暇つぶし検索量と失業率に関係が大きいことがわかっている

 これがビックデータ第一の力 これまで集められなかったデータを集めることができる

 数値だけでなく、言葉もデータとして収集できる アメリカで合衆国を文章で使う際に複数形が多かったが、近年は単数形が大多数になっている このような違いから人々の考えの変化を知ることができる

 写真もデータの一つ 途上国の人々に様々な街の写真を撮ってもらい経済状況と照らし合わせると、ガソリンスタンドの行列長さと経済不況を示す指標となった

第4章 秘められた検索

 人々は調査などには嘘をつくことが多い 投票をしたか等の問いでは調査結果が実際の投票率を上回ることも多い

 グーグルの検索では人々は嘘をつかずに検索を行う

 正直なデータを集めやすいのがビックデータの第2の力

 性に関することや人種差別に関わることもグーグルの検索から人々の本音が見える

 黒人を侮蔑する言葉である「ニガー」の検索からは様々なことがわかる

 オバマが大統領戦で苦戦した地域とニガーの検索量は一致しいていた

 景気の後退時には虐待の報告数が減る傾向にある 一方で虐待に関する検索数は増加する傾向にあった

➡実際は景気の後退は虐待を増やすが、報告数には影響しない可能性がある

 これらの事実は心の闇を表している面もあるが、不安に思っているのは自分だけでないと思えたり、公式データに表れない苦しい人に気づけるなどの利点もある  

 検索データの分析はどんな言葉がヘイトや怒りを起こしたり減らしたりすることにも役に立つ

第5章 絞り込みという強力な手法

 政治的な姿勢に関する研究では、14~24歳の時の大統領の人気でその後の政治姿勢がきまることがわかっている

 この時期に共和党大統領の人気があったり、民主党大統領が不人気だと共和党支持になり、逆であれば民主党支持になる

 このような研究は多くのデータを必要とする データが少ないと年齢でデータを分けた際にデータ数が不足し不正確になってしまう

 これがビックデータの第3の力 データの対象を絞り込んでもなおデータが多ければ、絞り込んでも正確な分析ができる

 野球選手の成績が落ちた際に復活が可能か調べる際には、その選手とできる限り近い選手=分身を探すことで正確に予想できる

 分身を探すという考えはアマゾンやネットフリックのレコメンド機能に用いられている 

 医療の分野で分身を探すことができるようになれば、患者により有効な治療法を示すことができる

第6章 世界中が実験室

 モノゴトの因果関係がどうか判断するには無作為に集団を二つに分け片方に何かを行い結果を比較する 行ったほうと行わなかったほうでの結果の差が物事の因果関係になる

 グーグルなどはサイト上でこのような実験を常に行っている A/Bテストと呼ばれサイト上のデザインと広告のクリック率の関係性を確かめてることができる

 ネット上のビックデータはA/Bテストを世界中で簡単に行うことができりようになる

 他にも、高校や大学のギリギリ受けった人と落ちた人のその後の収入を比べれば学歴と収入の関係をしることができる このような自然実験を用いることもビックデータで容易になる

 推測や通説、見せかけの相関関係を因果関係に置き換えることができる可能性ある

 これがビックデータ第4の力

第7章 できること、できないこと

 グーグル検索などのビックデータは様々な成果を上げることができるが限界もある 例えば株式市場の予測は不可能

 研究の少ない分野では力を発揮するが多くの人が取り組んでいる分野で、勝つことは難しい

 また、多くの変数(次元)を使い、それより少ない観察を行うと必ずただの偶然で、ある変数と結果が相関しているように見えてしまう(=次元の呪い)

 例えば大量のツィートの中身と証券市場の上げ下げを調べるときに、ツィートのほうが数が多ければ、偶然ある種のツィートが多いときに証券市場が上がる

 これを関係があると考えてしまうと判断を誤る

 ビックデータをスモールデータで補完することでより正確のデータとなる

 ビックデータはこれまでの問題解決法を用済みにするものでなく、補完的に作用する

第8章 やってはいけないこと

 ビックデータの力は非常に大きいゆえに倫理的な問題を引き起こすこともある

 ある研究では、借金をする際に借金の理由や返済の見込みについて書かれた文章の言葉使いが返済率と関係することを示している 負債なし、税引き後等の言葉を使う人は返済率が高く、神、お返ししますなどを使用する人は返済率が低い

 神などの言葉を使っただけで、返済率が低いから融資しないとなると倫理的に問題になる 企業が抽象的で企業のサービスには関係ないが予想可能な基準(神という言葉を使った)を用いて客の適正を審査する権利があるのか?

 企業が求職者のSNSを調べ過去の発言や発言の傾向から採用を判断することは許されるのか モーツァルトにいいねをする人はIQが高めで、ハーレーダビットソンにいいねする人は低いという研究結果があり、ハーレーにいいねした人を拒否するのは正しいのか(結果は次元の呪いの可能性も有り、ビックデータによる誤った差別につながりかねない

 検索結果などで個人レベルで犯罪予測をすることには慎重であるべき ある地域で犯罪を誘発するような検索が増えた(イスラム教徒への脅迫など)場合はその地域のモスクの警備を強化するなどの対策が望ましい

結び ここまで読み通してきた人は何人?

 社会学はこれまで物理や化学などの自然科学に比べ厳密な実験が難しかった 

 ビックデータ(特に正直な大量のデータ)があれば厳密な実験がしやすくなりその信ぴょう性は向上する

 特に今後ビックデータによって発展が期待されるのは

・医療

・教育

 A/Bテストが簡単できることで、手法とその効果を明らかにしやすくなる

コメント

タイトルとURLをコピーしました