深層学習の原理に迫る――数学の挑戦

『岩波科学ライブラリー 303　深層学習の原理に迫る――数学の挑戦』（今泉允聡，岩波書店，2021年9月22日）を読了。

深層学習が持つ特性として，「使える分野を特定しない汎用性」が挙げられる。深層学習は，極言すれば数字の列に変換できるものであれば全てのものを扱うことができる。（18 ページ）

デジタル化（数字の列に変換）しておけば，深層学習を適用することができる。

グーグル社やフェイスブック（Facebook）社などの IT 大企業は深層学習のための整った計算ライブラリを無料で公開しており，研究に参入する障壁は非常に低い。（18 ページ）

深層学習を使うハードルは，非常に低いので，チャレンジしてみようか。

過適合を実現象にたとえると，入学試験を受ける受験生の例がわかりやすい。（中略）ここで過適合とは，受験生が過去問では高得点が出せるが，肝心の入学試験で正解できない状況を指す。正しい学習では，過去問を通して汎用的な知識を習得し，そして入学試験の新しい問題にも正解することが理想である。しかし，過去問の解答を丸暗記するような受験生は，汎用的な知識の獲得に失敗しているため，全く新しい問題を解くことができない。これが，過去の事例に過剰にフィットするという意味で，過適合と類似する現象と言える。（83 ページ）

資格試験の勉強において，過去問から汎用的な知識を習得できるように心がける。

ニューラルネットワークの層やパラメータを増やすことは，関数表現能力を高めるが，その結果学習されたパラメータは不安定化し，過適合を起こす。古典的な数学・統計学の理論では，この現象をバイアスとバリアンスの二律背反（トレードオフ）と呼び，その二つの間でバランスをとることがデータ解析の上で大事だとされている。（87 ページ）

ニューラルネットワークの層やパラメータのバランスをとることにノウハウがある。

より具体的なパラメータを選ぶ方法として，勾配降下法（gradient descent method）という方法が広く使われている。これは，（訓練）損失関数の値が小さくなるようにパラメータを探索しながら少しずつ更新していく方法で，あたかも損失関数の坂（勾配）を下るように更新することから，勾配降下という名前がつけられている。（125 ページ）

パラメータを選ぶ方法のメソッドを知っておこう。

過去の科学の流れの中で，発見された一つの現象を数学的理論で記述することで，人類はその知識を体系立てて，より高度な科学技術の開発を可能にしてきた。例えばライト兄弟が飛行機を発明したのち，その原理を記述できる流体力学の理論が発展し，その理論がより高性能な飛行機やロケットなどの発明を可能にした。現代においても，深層学習という新しく発見された技術をきちんと数学で記述することで，人類による知のレベルを底上げし，未来の人類がより優れたデータ解析技術を発明する基盤を作ることが可能になるのである。（149 ページ）

科学の発展のためにも，深層学習を活用してみようか。