典型的な危機管理の失敗例

この記事は約3分で読めます。

今日は少々、専門的な話です。でも、学ぶ所の多い。

東証のシステムが昨日またダウンしたそうです。原因は以下のページを見ていただければ分かりますが、システム更新時に、技術者がたった1箇所の設定ミスをしたこと。

東証のシステム障害、設定ミスをテストでも見抜けず [ITPro]

これらのミスが、証券会社が接続する6台のゲートウェイサーバ全てに波及して、全体がダウンした模様です。

巨大市場の東証に、ゲートウェイサーバが6台しかないことも驚きですが、もっと驚くのは、バックアップ体制がないこと。普通、これだけ重要なシステムには必ず、普段は稼働させない、危機対応用のバックアップサーバを立てるものです。 ITと全く関係のない世界で働く私でさえ、仕事用のコンピュータは、もちろんまったく同じものではないですが、常に2台確保する(冗長化)ようにしています。土曜日の夜にパソコンが死んで、説教原稿が作れなくなる、という最悪の事態を避けるためです。

それなのに、こんな大規模なシステムで冗長化を図っていないとは・・。正直言って、信じられないですね。担当業者はいったいどうしたのでしょう。まるで自営業者向けのシステムのようなお粗末な対応です。

もし仮に冗長化して、同じものが二系統あるならば、まず片方をアップデートしてシステムにつなぎ大丈夫かテストする。もし問題があればすかさず古いもう片方の系統をつなぎ直して元に戻し、その間に問題箇所を調べる。これ常識ですよね。どこの業界でもやってます。たとえば電気。

「どうだ?うまくいくか?とりあえずつないでみろ」「ハイ」・・パチッ
「うわぁ、停電だー」「ヤバイ、元に戻せ!」
「本部長、元に戻せません!」「何やってんだ、バックアップはどうした!?」
「無いんです」「なにぃー!」
・・・(10時間停電)・・・

なんて話、ありえないですよね。システムの更新は、現在の電気使用者に迷惑がかからないように、バックアップ体制を構築してからやりますよね、東証はそれすらできていないようです。以下の最高情報責任者(CIO)の方の言葉にそれが表れています。

現在はシステム障害が起きたら原因が判明するまでシステムを停止する決まりになっている。今後は、障害の兆候があったら、その部分除去して取引を続けられるようにしなくてはいけない。」

・・って、停止していい次元じゃないと思うんですが・・。おうちの音楽サーバとは訳が違います。しかも、「今後は~」以下の文章なんて、開業時から実現できてないといけないことじゃないでしょうか。

東証は、以前も数日間、システムがとまったことがありました。全然、学んでいないようです。中が分からないのですが、多分、旧態依然とした官僚的組織なのではないでしょうか。

残念なことです。失敗はあっていいと思うんですが、失敗から謙虚に学ばないと・・。曲がりなりにも、「世界三大市場」を自称するんですから、その称号に相応しい信頼性を備えて欲しいものです。

コメント

  1. かどっち より:

    よっしーさん、singomamaさん、久しぶりです!
    レスありがとうございます。
    よっしーさん>
     経済誌の専門家としての東証のバックアップ体制についてのレスに感謝です。^o^) この辺りは全く私、門外漢なので、助かりました。
     たしかに、遠隔地地域バックアップという考え方は必要ですよね。ただ、一度立てたサーバーを動かすこと自体は、そんなにコストはかからないと思うんです。電気代とネットワーク使用料と人件費だけ。そして、今回の記事で私が一番言いたかったことは、今回のようなトラブル時に「利用者が切り替わったことすら気づかないような方法で、すぐにバックアップ側に切り替える、そういう仕組みがない」ということです。もしすぐに切り替えられないのなら、バックアップの意味が無いと思いませんか? そういうことも含めて、冗長化、という事を言ってみたんですが・・
     
    singomamaさん>
     システム屋さんからの貴重な意見、感謝!! 結婚生活も楽しそうで何よりです。^o^) でね、記事の話だけど・・
     上にも書いたけど、ハード障害とソフトの問題と両方を含めた冗長化、という意味だったのです。家のPCの話を持ち出したのは、そういう意味。つまり、ハードだけあっても、肝心のソフトが使える状態でインストされてなければ、やれWord入れて一太郎入れて・・って半日かかるでしょ?それだとダメな訳で・・ つまり、すぐにスイッチできるような環境がもうひとつないと困る、っていうことなのよ。今回の東証の場合、そういう意味の「冗長化」は無いのか!?というのが、僕の論点です。言葉足らずで申し訳ない。止めちゃ行けないシステム、例えば原子炉とかでは、必ずそういう意味での冗長化がされてると思うんだよね~。東証なんだから、それくらいやるべきではないかと思うわけ。
     でも、確かに、元記事への突っ込み所としては、やっぱり検証不足、技術不足っていう所なんだろうね、確かに。その意味では、少々論点がぼけてた文章だったかも。 で、ちなみに三大市場のレスポンスの違いの話なんか、全然知らなかった。やっぱそうか~、彼我の違いは大きいな~、と思いました。ありがと~!

  2. sinngomama より:

    冗長化はしてあるはずだけど、それってハード障害のためでしょ。
    プログラムのバグだからバックアップは今回関係ないよ。
    (それに震災等で壊滅を想定しているものだから9.11のような時でもないと使用しない)
    それに僕もシステムの仕事をしはじめてから分かるようになったけど原稿を書いているPCのバックアップとは全然違うから違和感を感じる。(自家用車と航空機とかを比較しているような感じかな)
    単純にテストが足りないとかシステムを分かっている人材をちゃんとしたポジションに就けるべき。という指摘の方が生産的な指摘だと思う。
    ちなみにNY、ロンドンと並んで東証は3大市場だけれどそれは単に上場している時価総額が多いからでシステム的にはシカゴマーカンタイルやドイツ証券取引所の方が商品・システムのレスポンス(100/秒代)と早いので、そこのところは既存の銀行とネットバンクのような感じだよ。

  3. よっしー より:

    かどっちさん、相変わらず難しい日記を書いてますね。
    東証にバックアップの市場がない訳ではないと思います。
    ただ、バックアップ市場は大地震とかテロの時に備えて、東京以外の場所にあるので、それを稼働させるのにはかなりのコストがかかります。ちょっとしたトラブルでしょっちゅう稼働させていたら、経営を圧迫するでしょう。
    また、原因が判るまで取引を停止するというのは、市場は常に憶測で動くので、余計な市場の混乱を防ぐための適切な判断だと私は思います。たとえば、サイバーテロかもしれないと感じれば、市場が暴落する前にいち早く決済しようとする人が増え、それがさらなる市場の不必要な下落を招くというのはよくあることです。
    なんて、生意気を言ってしまいましたが…笑
    ところで、某T先生とIさんの結婚式はどうだったのでしょうか?