Masassiah Blog

現役サラリーマンのスキルアップのための読書まとめ

分析者のためのデータ解釈学入門 データの本質をとらえる技術

『分析者のためのデータ解釈学入門 データの本質をとらえる技術』(江崎貴裕,ソシム,2020年12月25日)を読了。

他の人の手によってまとめられたデータでは,これは非常に見逃しやすいポイントとなります。常に測定基準を確認することを習慣付けましょう。(p. 53)

他の人の手によってまとめられたデータには罠が潜んでいる可能性を理解する。

回答を歪める心理学的効果の例(p. 59)

  • 黙従傾向:「はい/いいえ」で答える質問などで肯定的な選択肢を答えやすい。
  • 中心化傾向:「・全く同意できない ・やや同意できない ・どちらともいえない ・やや同意できる ・非常に同意できる」から一つ選んで答える質問などでは,真ん中の選択肢「・どちらともいえない」が選ばれやすくなる。
  • キャリーオーバー効果:前の質問への回答が,次の質問への回答に影響する。
  • 質問文での誘導:「近年,データ分析の需要が高まっていますが,貴社ではデータ活用にどれくらい関心がありますか?」のように,質問前半の余計な情報に回答が影響される。

アンケート項目や選択肢を検討する時の参考にしよう。

データ分析の流れ(p. 110)

  1. データの観測
  2. 前処理
  3. 分析
  4. 結果の解釈・利用

データ分析を行う最初のステップは,データの観測を行うこと。

わかりやすいコードを書くポイント(p. 114)

  • わかりやすい命名
  • 何度も行う処理は一つにまとめる
  • 長い処理はできるだけ分割する
  • 短く書くことが常にいいとは限らない

シンプルなポイントであるが,わかりやすく参考になる。

さまざまな数理モデルの例(p. 196)

  • 線形回帰モデル:重回帰,単回帰のように変数の間の関係性を線形の関数(変数の足し算)で指定するモデル。
  • 統計モデル:変数の間の関係やばらつきを表現する確率分布を指定するモデル。
  • 時系列モデル:変数の過去の値と未来の値の間の関数関係を構成するモデル。
  • ニューラルネットワーク:変数の間の関係性を表現するために,計算モジュールをネットワーク状に組み合わせてできた複雑な関数を用いるモデル。

データを解釈するとき,適切な数理モデルを活用する。

p-hacking を避けるために提案されているガイドライン(pp. 240 - 241)

  1. データ取得を始める前に,どこまでデータを取るのかを決定し報告する
  2. 一つの条件に付き,最低でも 20 の観測値を集める
  3. 収集した全ての変数について報告する
  4. データを取得した全ての実験条件を報告する
  5. もし観測値を取り除く場合は,それを取り除かなかった場合の分析結果も示す
  6. 分析で,ある変数の影響を取り除く操作(共変量の抑制)を行った場合は,そうしなかった場合の結果も示す

データ解釈した論文を作成する時には,p-hackling を避けるために提案されているガイドラインを参考にしよう。

すでに顕在化した災害で,壊滅的な被害をもたらす可能性があるものについては,リスクを過大評価しやすいというバイアスも存在します(カタストロフィーバイアス)。例えば,原発事故やパンデミックなどがそれにあたります。(p. 249)

2011 年の原発事故以来,カタストロフィーバイアスから抜け出せない。