×
最新の人気コンテンツ情報をまとめた
メールマガジンをお届けします

ページトップへ
2017年2月、米国で発生した「Amazon Web Services 」(以下:AWS)の大規模障害だが、日本でもいくつかのネットメディアが報道したものの、リアルタイムではそれほど大きな話題にならなかった。この障害の発生原因について、アマゾン自身が公開した内容を読み直してみると、「え?そんなことで大規模障害が発生してしまうの?」という驚愕の事実が浮かび上がってくる。

また同業他社も、いつ自分のところで同じような事態が発生するかわからないため、あまりこの件について業界内で厳しい発言は出なかったようだ。カスタマーインサイトドリブンで考えると、よほどのことがない限りパブリッククラウドが簡単に停止してしまう事態に陥るとは容認しがたいものである。しかし、その期待とは裏腹に、今回の大規模障害は実に稚拙な人的ミスが起因であった。

事の顛末は実に稚拙

AWSに大規模システム障害が発生したのは2017年の2月28日。バージニア州北部に設置されたクラウドストレージサービス「Amazon Simple Storage Service」(以下: S3)がアクセス不能の状況に陥ったため、このサーバを利用する数多くの顧客が約4時間に渡りサービスが受けられなくなってしまったのだ。

<参考元>
米国東部(バージニア北部、US-EAST-1)リージョンで発生した Amazon S3 サービス障害について|AWS 公式

詳細はアマゾンが発表した上記のレポートを読んでいただきたいが、このレポートをかいつまむと以下のような内容となる。

このサーバを管理するS3チームは、S3の課金システムの動作が遅いという問題の原因を修正する作業を行った。この作業にあたり、権限を有するS3チームメンバーの1人がS3の課金プロセスによって、使用されている特定のS3サブシステム用のサーバのごく一部を切り離すため、あらかじめ確立された手順に従いコマンドを発行したのだ。
だが、このときコマンドに引き渡す入力のひとつを誤ってしまい、想定していたよりも多くのサーバを切り離してしまう事態に陥った。その結果、バージニア州北部のリージョンにおけるすべてのS3オブジェクトが、意図せず必要な2つのサブシステムの停止を余儀なくされてしまったのだ。そして、システムの再起動と安全面のチェックに予想外の時間がかかり、サーバは約4時間も完全停止してしまったという。

オンプレミスでシステム管理を行う事業者ならば、「いろいろと想定外なことがおきるから大変ですね」という話になるのかもしれない。しかし、ノンストップサーバをレンタルで借り、止まらないことが条件でビジネスを行っている事業者にとっては、仕方ないなど口が裂けても言えない内容だ。「権限をもった人間がコマンドを間違えたらみんな止まっちゃいました」では済まないことである。

12万強のドメインに影響

SimilarTechのトラッキングデータによると、S3はこの障害発生時点で14万8,213のウェブサイトが利用し、 12万1,761のドメインを運用していた。コンテンツのホスティングサービスとしては米国に集中していたとされているが、世界的な規模から見れば上位100万サイトのうち0.8%ということになり、その影響は限定的とも言える。しかし、Q& Aサイトの「Quora」、ニュースレター配信サービスの「Sailthru」、ニュースサイトの「BUSINESS INSIDER」、GIFアニメーションのライブラリ「Giphy」、S3が画像をホスティングしている各種メディア、Slackにおけるファイル共有などへ、大きな影響を及ぼす事態となったのだ。非常に不遜な言い方をすれば、こうしたサイトは損害賠償としてお金で解決することができるだろう。

だが、ここで注目したいのはIoTの利用もこの障害で全面的に停止してしまったということである。スマートサーモスタットなど、ホームIoTを提供するNestもAWSのユーザーであり、このシステム障害が発生したことで約5時間に渡りデバイスのコントロールが不可能となってしまっていたのだ。

IoT利用でサーバーダウンになれば人の命にかかわる大問題に

こうしたパブリッククラウドの人為的ミスによるシステムダウンで、心配されるのは人の命にかかわるようなIoT接続の機能がワークしなくなるという事態である。
例えば、外部からエアコンの温度調節ができなくても、人の命に係わらないのであればそれほど大きな問題ではない。しかし、自動運転車のIoTデータがこのようなミスにより、4時間も停止したとなればどうなるだろう。インフラの麻痺や、交差点で大事故が頻発したりすることを考えると、サービス利用事業者とクラウドプロバイダーの間で取り交わされてきた従前のSLAなどは、まったく役に立たない可能性が出てくる。なにより、世界的にパブリッククラウドで大きなシェアを持つアマゾンのAWSで、かつもっとも古くから利用されている米国東部のサーバ管理でもこの調子なのだ。

今後IoTにクラウドの利用を考える事業者は、単なるブランドイメージやシェアの問題だけで利用プロバイダーをフィルタリングすることは、致命的な事業ダメージにつながりかねないため、厳重に認識する必要がありそうだ。少なくとも、これまでの大規模システム障害の実績と、バックアップサーバーのコンティンジェンシープランについては、相当細かいチェックが必要になることを肝に銘じるべきであろう。

また、パブリッククラウドプロバイダーはこうした危機的な事例を他山の石とせず、みずからのオペレーションでの危機管理に役立てていただきたいものだ。パブリッククラウドの社会的な責任は、想像以上に重大なものになろうとしていることを忘れてはならない。


<参考・参照元>※リンク先英文記事
Amazon knocked AWS sites offline because of typo | ZDNet
Amazon AWS S3 outage is breaking things for a lot of websites and apps | TechCrunch