分析者のためのデータ解釈学入門データの本質をとらえる技術

『分析者のためのデータ解釈学入門データの本質をとらえる技術』（江崎貴裕，ソシム，2020年12月25日）を読了。

他の人の手によってまとめられたデータでは，これは非常に見逃しやすいポイントとなります。常に測定基準を確認することを習慣付けましょう。（p. 53）

他の人の手によってまとめられたデータには罠が潜んでいる可能性を理解する。

回答を歪める心理学的効果の例（p. 59）

黙従傾向：「はい／いいえ」で答える質問などで肯定的な選択肢を答えやすい。

中心化傾向：「・全く同意できない　・やや同意できない　・どちらともいえない　・やや同意できる　・非常に同意できる」から一つ選んで答える質問などでは，真ん中の選択肢「・どちらともいえない」が選ばれやすくなる。

キャリーオーバー効果：前の質問への回答が，次の質問への回答に影響する。

質問文での誘導：「近年，データ分析の需要が高まっていますが，貴社ではデータ活用にどれくらい関心がありますか？」のように，質問前半の余計な情報に回答が影響される。

アンケート項目や選択肢を検討する時の参考にしよう。

データ分析の流れ（p. 110）

データの観測

前処理

分析

結果の解釈・利用

データ分析を行う最初のステップは，データの観測を行うこと。

わかりやすいコードを書くポイント（p. 114）

わかりやすい命名

何度も行う処理は一つにまとめる

長い処理はできるだけ分割する

短く書くことが常にいいとは限らない

シンプルなポイントであるが，わかりやすく参考になる。

さまざまな数理モデルの例（p. 196）

線形回帰モデル：重回帰，単回帰のように変数の間の関係性を線形の関数（変数の足し算）で指定するモデル。

統計モデル：変数の間の関係やばらつきを表現する確率分布を指定するモデル。

時系列モデル：変数の過去の値と未来の値の間の関数関係を構成するモデル。

ニューラルネットワーク：変数の間の関係性を表現するために，計算モジュールをネットワーク状に組み合わせてできた複雑な関数を用いるモデル。

データを解釈するとき，適切な数理モデルを活用する。

p-hacking を避けるために提案されているガイドライン（pp. 240 - 241）

データ取得を始める前に，どこまでデータを取るのかを決定し報告する

一つの条件に付き，最低でも 20 の観測値を集める

収集した全ての変数について報告する

データを取得した全ての実験条件を報告する

もし観測値を取り除く場合は，それを取り除かなかった場合の分析結果も示す

分析で，ある変数の影響を取り除く操作（共変量の抑制）を行った場合は，そうしなかった場合の結果も示す

データ解釈した論文を作成する時には，p-hackling を避けるために提案されているガイドラインを参考にしよう。