AWSに好感しか持てないAWS東京リージョンでの障害

f:id:bfx62324:20190722155057p:plain

ご存知（？）かと思いますが、AWS東京リージョンで大規模障害が発生しましたね

IT業界とその利用企業社にとっては大大大ニュースだったわけですがその障害経過と復旧までとこれまでの歴史が素晴らしすぎて結局好感しか持てないという話です

AWSってなに？？
ちなみに、今回のAWS障害でAWS側を追求するユーザがいるとすると、それは無知です
AWS障害対応の恐るべき内容
やはりAWSに好感しか持てない
関連記事です

AWSってなに？？

知らない人もいるかも知れないので一応記載

AWSとはAmazon Web ServiceというAmazonが行っているクラウドサービスです
みんなAmazon、アマゾンと言っていますが実はAWSはAmazonグループの利益の6割近くを単体で上げているとてつもないサービスなんです
本業のAmazonネットショップの利益はそんな高くないんですよね（売上は高いけど）

IT業界の中では今や最強ITベンダなんです
IT業界内の影響力も、マイクロソフトと互角の２強状態ですね（AWS本業のクラウドIaaS事業だとマイクロソフトすら圧倒してます）

AWSは日本でも事業を展開していて、それはそれは優秀な人材が優れたサービスを販売しています
私のその一員になろうかと一度トライしてみましたが、だめでした（笑）

www.hitoriit.com

ちなみに、今回のAWS障害でAWS側を追求するユーザがいるとすると、それは無知です

AWSユーザにとってAWS側の障害でシステムが利用できなくなった場合多くはお客様の責任です

AWSをきちんと設計できていなかった
AWSの機能をうまく理解できていなかった
コストの問題でAWSで実装可能な冗長性、高可用性を諦めた

これらは全てお客様に責任のあるサービスなんです（そもそもそういうもの）

aws.amazon.com

これを理解せずに批判する人間は

AWSを全く知らない（使っているくせに）
AWSをつかったことがない

のどちらかです
まぁTwitterで批判するくらいならまぁいいでしょう
一方でAWS側に怒鳴り込んでも全く相手に知れもらえないので注意してくださいね

AWS障害対応の恐るべき内容

何がすごかったかというと、以下の４点です

東京で８年間この規模の障害がなく、大規模停止自体がほぼ初めて
たった５時間の間に６階の経過報告を行っている
サーバの物理障害（しかも大規模障害）からたった７時間で復旧している
８年間の運用期間中初めての大規模障害で、この速度・対応内容

これがどれだけすごいことか・・・

こんな対応を見せられると、AWSを使わざるを得ないですし、これからますます多くのユーザがAWSを利用することになるでしょうと言わざるを得ません
特定の事業者が圧勝することは業界にとって必ずしもいいこととは言えないのですが、IBM / Oracleあたりが追いつくには相当時間がかかるでしょうし、マイクロソフトですらこの対応が可能かどうか非常に疑問です

では一つづつ解説してみましょう

東京で８年間この規模の障害がなく、大規模停止自体がほぼ初めて

２０１１年３月に東京リージョンが開設しており、現在８年と半年ほど運用を継続している状態です

japanese.engadget.com

この８年と半年の間、大規模障害を一切起こさずここまで運用を継続してきたのがAWSです
もちろん、軽微な障害はあったでしょうし、北米リージョンでは大規模障害が発生したことも有りました。東京リージョン以外では障害がなかったわけではないということですね。それでも東京リージョンでは初めての大規模障害でした

AWS東京リージョンで抱えるユーザ数は１０万以上と言われています
クレジットカードさえあればAWSは利用できるので個人ユーザーももちろん多数おり、規模の大小については言及できませんがとはいえ多数の大企業が使っています

８年間これだけの大障害が一切なく、現在まで無事運用できてきたことは特筆に値するべきことだと思います

たった５時間の間に６度の経過報告を行っている

すごいですね、５時間の間に６回も経過報告は通常行えません

最終的に日本語、英語、中国語の３言語で障害内容報告書を発行しています

aws.amazon.com

状況報告は常にAWS Webページ上で全世界に対して発信されていました

一体誰がどういった権限で更改まで至るんでしょうか・・・
サポートエンジニアの裁量で更改ドキュメントを作成し、レビューし、公開する事はできないでしょうから、サポート部隊のドキュメント作成者、レビュー者、公開承認者、公開者の４者が最低でも必要でしょう

この４者が的確にコミュニケーションしつつ、毎度情報公開を行っていたのはとても驚異的です
平日日中（午後）という面も味方したんでしょうが、とはいえすごいの一言です

サーバの物理障害（しかも大規模障害）からたった７時間で復旧している

今回設置先データセンタの冷却装置の障害に起因してサーバ室内の温度が上昇しCPU / Memoryを搭載するサーバが次々に機能停止に陥ったことが根本原因だと発表されています
サーバ室内の冷却装置復旧により障害発生から３時間ほどで復旧できたサーバも多数ある一方で、大規模傷害ゆえにもう電源も起動できなくなったサーバ・ストレージも多数あったようで、最終的には７時間ほどの時間をかけて復旧完了しています

甚大なハードウェア障害があってハードウェアまるごと交換（AWS報告書では「リタイア」と記載）の必要性があったんでしょう
おそらくバックアップからの復旧もせざるを得ないマシンも多くあったのでしょう

それほど甚大な障害からであっても７時間で復旧できているんです

まさにすごいの一言です

８年間の運用期間中初めての大規模障害で、この速度・対応内容

やはりこの点が特筆してスゴイと言わざるを得ない点です

８年間で初めての大規模障害で、東京リージョンから開設以降、未経験の規模の障害だったことは言い切れます
それなのにこのスバラシイ対応です
一体どんな鍛え方をしていれば、一体どんな障害対応フローを有していれば、一体どんなアーキテクチャをしていれば、一体どんな指示系統を有していればこの対応が可能になるんでしょうか

やはりAWSに好感しか持てない

今後クラウドを利用しようかと考えているITユーザは迷わずAWSを利用するべきだと思います

AWSといえでも最終的にはハードウェア上で動作しているものですから障害も故障も普通に起こりうることです

サーバーワークス社長がFacebookで非常にいいことを発信いますが「クラウドという”道具”をどう使うのかは利用者とIT業界の共通の課題で、まだまだAWS認定パートナーとしてやるべきことがある」ということだそうです

AWS側が発信するベストプラクティス（Well Architected Framework）をよく読み、よく理解し、よく実装することが最も重要なことであり、決してメーカ（クラウドベンダ）やベンダ（ITベンダ、SIer）任せにしない運用ノウハウを確立している状態を如何にして獲得するかが今後より大切になるんだと思います。

AWSに障害が発生した場合のシナリオをすでに持っていて、実践に移したサービス提供者が今回被害を受けた会社の中にどれほどいたのでしょうか？そのうちどれほどの会社が（AWSの停止は免れなかったとして）迅速な対応をすることが出来たのでしょうか？
AWS停止時間＝自社のサービス停止時間だったところはその実装・運用を見直す必要があるのかもしれません

こしぞーのひとり情シス

Windows/仮想化の小規模環境を運用するリーマンの日々を綴っています。