ファーストサーバ障害について基盤SEが利用者視点で考える。【その１】

ファーストサーバが障害を起こして、一部ユーザのデータを完全に消失した模様です。徐々に原因なども報道されるようになりました。このような事態について利用者としては今後どう考えていけばよいのかを基盤SEをしている筆者が考えてみます。

　クラウドに預けていたデータが、「雲」が消えるかのごとく消失してしまった。20日17時頃、レンタルサーバー会社のファーストサーバ（大阪市）で起きた「データ消失」事故。その深刻な状況が日を追うごとに明らかになってきている。被害にあった顧客件数は5698件で、ほとんどが復旧不可能な状態。ウェブサイトやメールに加え、顧客情報...

利用者の率直な感想としては、「データをホスティングする業者がデータを消失するとかあり得ないだろっ」というところでしょう。それはもっともなことですし、実際に筆者もニュースをみて「えー。。」と思いました。ただ、バックアップに関しては二重・三重と策を講じるにつれてコストは上昇します。データセンターで使われるストレージは驚くほど単価が高いのが実情です。数百GBの領域を稼働率高く提供するためには、コンシューマレベルのHDDとはまさに桁違いのコストがかかります。したがって低価格をうりにするサービスでは、データがどの程度守られるかは未知数と考え、ある程度は自衛策を講じないといけません。

一部報道によると、SLAで稼働率100％を保証していたようですが、稼働率100％というのは非現実的です。確率論として、二重化・三重化したところで同一箇所が同時に障害を起こす確率が0にならないのですから、100％止まらないなどというのは無理なのです。SLAは99.999%の稼働率で年間の停止時間というのは約5分です。ミッションクリティカルと呼ばれる企業の基幹系システムで目指すことがある目標値がこの値であるというのが筆者の認識です。この値を目指すだけでも相当な投資が必要です。逆いうと安価なサービスではこれよりもSLAとしての稼働率が落ちるのは必然と考えるべきです。

したがって、安価にもかかわらずあまりに高い稼働率を保証している場合は、本当にその稼働率で動くのかは非常に疑問です。実際にどのような手段を用いて稼働率をあげるための努力をしているのかが説明されていない場合は、安易に信用するのは避けた方がよいでしょう。安いのに止まらないシステムが作れるのであれば、ぜひ筆者にも教えて欲しいぐらいですから。

今回も長くなってきたので次回に続きます。