【書籍紹介】ポストモーテム みずほ銀行システム障害 -失敗からの学び-

スキルアップ

はじめに

2021年2月〜2022年2月の約1年間、みずほ銀行では外部に影響するシステム障害が11件も発生しました。
大体1ヶ月1件なので、正直ドン引きするレベルの頻度です。。。

私も報道を拝見していましたが、最後の方は「またか〜〜」と思うようになりました。
(慣れって怖いですね)

一方で、IT業務に従事する身として明日は我が身という気持ちもあり、「なぜみずほ銀行でシステムトラブルが頻発するのか?」、「自分の会社は大丈夫か?」と不安になっていました。

その不安と疑問を解消する手助けとなるのが、日経BPから出版された「ポストモーテム みずほ銀行システム障害 事後検証報告書」です。

本書は、システム構成、運用体制、社風など様々な角度からみずほ銀行のシステム障害を検証しています。
それはまるで、「自分がみずほ銀行の内情を知る関係者」と錯覚するほど重要なポイントをギッシリ詰め込んだ内容です。

現在、ITシステムと無関係な企業はほとんど存在しません。
ぜひ、全ての方に本書を読んでいただき、自社のITシステムとの向き合い方を考えるキッカケにしていただきたいです。

本書の構成

本書は、ポストモーテム(=検死、死体解剖)のタイトルが示す通り、事実(検体)を正確に調べ上げ、原因・真因(死因)の特定を試みています。

第1〜2章:全体概要の説明
第3章  :被害拡大の引き起こした「疑問点」
第4〜6章:システム障害発生の真因の考察
第7章  :みずほ銀行の展望

この中で特に注目したいのが、第3章です。

第1〜2章では、11件のシステム障害の原因とリカバリ対応を1つずつ確認していました。

その中で、「えっ!なんでコレをしないの?」や「えっ!そんなコトやっちゃったの?」と外部者から見れば不思議に思うことがいくつもありました。
この不思議を事実に基づき整理して、「過去からの背景」や「当日の現場の状況」などと合わせて説明しています。

特に当日の現場の状況は分単位の時間が記載されています。
深夜の夜間バッチ処理が停止してしまった時、リカバリを試みても失敗し、業務開始まで刻々と時間が迫る。
xx時xx分になり、「作業を止めて報告すべきか?」、「今のリカバリ方法を続けるか、別方法を模索するか?」・・・

もし、当日の現場に居合わせたのが自分だったらと想像するとゾッとします。
そして、後から言われているような「より好ましい判断」ができたかは、自信が持てないです。

この第3章は、ぜひ当事者が自分だったらと想像して読んでほしいです!!

本書が伝えたいこと

この本に興味を持っていただいた方はお気づきだと思いますが、本書はみずほ銀行を笑い物にするものではありません。
むしろ逆で、みずほ銀行が抱えるITシステムの問題点を広く共有して、社会のITシステムをより良くしていくことを目的にしています。

もしあなたが、本書に登場するみずほ銀行の当事者だった場合
・4000億円が必要なシステム刷新(MINORIプロジェクト)を、必要経費として採用できますか?
・開発中に、今以上に良いMINORIのアーキテクチャを提案できますか?
・開発が完了し、4000億円を会計処理する中で、運用体制縮小に反対できますか?
・深夜に発生した障害(原因不明)のリカバリ対応に注力する中、関係者への報告など適切な行動が取れますか?
などなど、自分ごとに置き換えると難しいことがたくさんあります。

ぜひ、本書で他人の経験を追体験することで、自身のレベルアップにつなげてください。

コメント

タイトルとURLをコピーしました