Masassiah Blog

現役サラリーマンのスキルアップのための読書まとめ

ポストモーテム みずほ銀行システム障害事後検証報告

『ポストモーテム みずほ銀行システム障害事後検証報告』(日経コンピュータ,日経 BP,2022年3月14日)を読了。

ポストモーテム(Postmortem)――。米国の IT 企業は,システム障害が発生した後に社内外の関係者と共有する事後検証報告書をそう呼ぶ。(位置 No. 2)

ポストモーテムの意味を知っておく。

重要なのは,システム障害が発生しても業務を通常通りに続けられるレジリエンシー(復元性)を有していることだ。そのためには企業はシステム障害がどのようなものか理解し,そこから復元する術を身につけると共に,情報システムに対して実装していく必要がある。みずほ銀行のシステム障害については,社会全体がこれを教訓にし,システム障害に対する理解を深め,レジリエンシーを高めるきっかけにするのが望ましい。それにはポストモーテムが必要だ。(位置 No. 28)

システム障害に対する理解を深めるとは,システムを活用した業務の理解とシステムそのものの理解を深めることか。

さらに金融庁みずほ銀行がシステム障害を何度も繰り返す「真因」として社風に問題があるとし,「言うべきことを言わない,言われたことだけしかしない姿勢」があるとまで述べた。(位置 No. 444)

「言うべきことを言わない,言われたことだけしかしない姿勢」は,私が勤めている会社にも当てはまる。

「積極的に声を上げることでかえって責任問題となるリスクをとるよりも,自らの持ち場でやれることをやっていたといえるための行動をとる方が,組織内の行動として合理的な選択となってしまう」(調査報告書,位置 No. 1501)

全体最適ではなく,部分最適が合理的な選択となるのは,私が勤めている会社でも同じである。

みずほ銀行の勘定系システムは,銀行のリテール業務を支える存在である。しかし過去 30 年間で,銀行のリテール業務の収益性は大きく低下した。新たな収入が得られるわけでもない勘定系システムには,そうそう巨額の資金は投じられなくなった。(位置 No. 2106)

新たな収入が得られるわけではない勘定系システムに巨額の資金を投じたくないというのも理解できる。しかし,勘定系システムがないと銀行を営むことができないと考えると,必要な投資なのだと思う。

みずほ銀行は勘定系システムの「MINORI」稼働後は,システム障害を想定した訓練を実行していなかった。それに対して他のメガバンクでは,高可用性が求められるシステムについては,年に 1 回必ずシステム障害を想定した訓練を実行していた。しかも運用手順を確認するといった形式的な訓練ではなく,開発・テスト機を使って実際に稼働系から待機系に切り替えてみるといった実戦的な訓練を行っている。(位置 No. 2642)

私が勤めている会社では,システム障害を想定した訓練は行われていないか。(個別には行われているかもしれないが,全社的な訓練は行われていない。)

システムを安定稼働させる仕組み作りは「SRE(サイト・リライアビリティー・エンジニアリング)」と呼ばれるシステム工学の新分野として,世界中で注目されている。(位置 No. 2881)

SRE (Site Reliability Engineering) というシステム運用の方法論には,注目しておく。

筆者は普段,GAFA をはじめとする米国の大手テクノロジー企業の動向について記事を執筆している。筆者は普段の取材の中で,米国の大手テクノロジー企業が「失敗からの学び」を非常に大事にしていることを知った。アイデアはなるべく早く形にして顧客に試してもらい,失敗した点はすぐに修正する。このサイクルをなるべく早く,多く回すことにテクノロジー企業は心血を注いでいる。だからこそ優れたイノベーションを起こせているのだと,シリコンバレーなどでの取材を通じて思い知った。(位置 No. 2995)

失敗しても,そこから学び,同じ失敗を繰り返さないようにする。当たり前のことかもしれないが,それを実践する。