よくニュースで大きなシステム障害が発生した時に、その原因は単純な設定ミスや記述ミスを原因とする事が多いように感じる。
そして、それらは開発・運用の標準化が足りない事や、確認を十分に行う等の対策となりがちである。
しかし、本当にそれが正しいのだろうか?
まず、プログラムは単純な事を積み上げる事で、複雑な事を実現している。
そのためミスが起こるのはその単純な箇所となりやすい。また、設定も複雑な事をできるだけ簡単な作業として実現しているのが設定である。
これらの箇所が10個や20個であれば、ミスは少ないだろうし、設定漏れも発生しないだろう。しかし、システムの設定箇所やプログラム箇所は膨大である。その全ての設定箇所やプログラムを100%正確に設定できる人はいるのだろうか?
また、作業にゆとりがあったのだろうか?
ゆとりが無い状態では、確認を時間をかけて行えないと思うし、今すぐに解決しなければならない事以外は、後回しになってしまうのでは?
特に他の人の担当であれば、なおさら“分かっているだろう”となると思う。
たぶん、この問題は組織や人、心理などを良く考えないと難しいと思う。



