『分析者のためのデータ解釈学入門 データの本質をとらえる技術』(江崎貴裕,ソシム,2020年12月25日)を読了。
他の人の手によってまとめられたデータでは,これは非常に見逃しやすいポイントとなります。常に測定基準を確認することを習慣付けましょう。(p. 53)
他の人の手によってまとめられたデータには罠が潜んでいる可能性を理解する。
回答を歪める心理学的効果の例(p. 59)
- 黙従傾向:「はい/いいえ」で答える質問などで肯定的な選択肢を答えやすい。
- 中心化傾向:「・全く同意できない ・やや同意できない ・どちらともいえない ・やや同意できる ・非常に同意できる」から一つ選んで答える質問などでは,真ん中の選択肢「・どちらともいえない」が選ばれやすくなる。
- キャリーオーバー効果:前の質問への回答が,次の質問への回答に影響する。
- 質問文での誘導:「近年,データ分析の需要が高まっていますが,貴社ではデータ活用にどれくらい関心がありますか?」のように,質問前半の余計な情報に回答が影響される。
アンケート項目や選択肢を検討する時の参考にしよう。
データ分析の流れ(p. 110)
- データの観測
- 前処理
- 分析
- 結果の解釈・利用
データ分析を行う最初のステップは,データの観測を行うこと。
わかりやすいコードを書くポイント(p. 114)
- わかりやすい命名
- 何度も行う処理は一つにまとめる
- 長い処理はできるだけ分割する
- 短く書くことが常にいいとは限らない
シンプルなポイントであるが,わかりやすく参考になる。
さまざまな数理モデルの例(p. 196)
- 線形回帰モデル:重回帰,単回帰のように変数の間の関係性を線形の関数(変数の足し算)で指定するモデル。
- 統計モデル:変数の間の関係やばらつきを表現する確率分布を指定するモデル。
- 時系列モデル:変数の過去の値と未来の値の間の関数関係を構成するモデル。
- ニューラルネットワーク:変数の間の関係性を表現するために,計算モジュールをネットワーク状に組み合わせてできた複雑な関数を用いるモデル。
データを解釈するとき,適切な数理モデルを活用する。
p-hacking を避けるために提案されているガイドライン(pp. 240 - 241)
- データ取得を始める前に,どこまでデータを取るのかを決定し報告する
- 一つの条件に付き,最低でも 20 の観測値を集める
- 収集した全ての変数について報告する
- データを取得した全ての実験条件を報告する
- もし観測値を取り除く場合は,それを取り除かなかった場合の分析結果も示す
- 分析で,ある変数の影響を取り除く操作(共変量の抑制)を行った場合は,そうしなかった場合の結果も示す
データ解釈した論文を作成する時には,p-hackling を避けるために提案されているガイドラインを参考にしよう。
すでに顕在化した災害で,壊滅的な被害をもたらす可能性があるものについては,リスクを過大評価しやすいというバイアスも存在します(カタストロフィーバイアス)。例えば,原発事故やパンデミックなどがそれにあたります。(p. 249)
2011 年の原発事故以来,カタストロフィーバイアスから抜け出せない。