※8/30 AWSが、当初の見解(影響範囲、対策方法)を撤回
本日13:10頃、Amazon のクラウドサービス「Amazon Web Service (AWS) 」で大規模障害が発生し、各所に少なからぬ影響が発生しています。
- 障害箇所は、日本(東京リージョン)
- 障害部位は、EC2 とRDSとEBS等。ネットワーク的な問題か?
- 影響を受けているのは、企業各社の業務システムやゲームサービスなど多方面
- いつ普及するのか?
- 速攻追記:駅メモ復旧していました。
- 正式復旧:「サーバ加熱によるダウン」だったそうです。
- 8/25追記:詳細出ました
障害箇所は、日本(東京リージョン)
米Amazon Web Servicesが提供するクラウドサービス「AWS」の東京リージョンのデータセンターで、8月23日午後1時ごろから障害が発生している。この影響で、国内の複数のサービスで一時利用できない状態が続いた。同社は障害の原因を特定済みで、復旧を急いでいる。
障害が発生しているのは、AWSのうち主に日本が使用しているリージョン「東京リージョン(ap-northeast-1)」です。
リージョンというのは、データセンタみたいな意味合いです。
つまり「主に日本の企業が使用しているデータセンタ上のサーバ類が、こぞって落ちている」ような感じです。
障害部位は、EC2 とRDSとEBS等。ネットワーク的な問題か?
障害が発生しているサービスは、AWS の数々のサービスのうち EC2 (Amazon Elastic Compute Cloud ) 、RDS (Amazon Relational Database Service)、および EBS (Amazon Elastic Block Store) です。
EC2 はサーバOS、RDS は Oracle のようなデータベース、EBS はハードディスクのようなものです。
しかし、根本的には「ネットワーク系の問題」でこれらの連携・疎通に時間がかかり、その結果個々に障害が出ているように見ているのではないかと思います。
影響を受けているのは、企業各社の業務システムやゲームサービスなど多方面
日本の各企業は、AWS を使用する際におもに東京リージョンを使用します。
従って、AWS を使用している日本企業は軒並み自社システムが影響を受けてしまう事態に陥っています。
東京リージョンは AWS の中でもこれまで特に安定して稼働していましたので、冗長性をあまり気にしないで構築されたシステムも多いようです。
ゲーム等でも、「駅メモ(ステーションメモリーズ)」や「アズールレーン」等が影響を受け、これを書いている19:17時点でもサービス復旧できていません。
いつ普及するのか?
復旧の目処ですが、今のところまだ立っていないようです。
16:00頃から順次サービス復旧しているようですが、AWSからの公式アナウンスは出ておらず、まだ復帰できていないサービスも少なからず存在するようです。
速攻追記:駅メモ復旧していました。
19:19現在、駅メモ繋がりました!!
正式復旧:「サーバ加熱によるダウン」だったそうです。
AWS Service Health Dashboard - Aug 23, 2019 PDT
(ここの Asia Pacific タブ参照)
和訳:
午後8時36分(PDT)から、AP-NORTHEAST-1リージョンの単一のアベイラビリティーゾーンのEC2サーバーの一部が過熱のためシャットダウンしました。これにより、EC2インスタンスが損なわれ、アベイラビリティーゾーンの影響を受ける領域のリソースのEBSボリュームパフォーマンスが低下しました。過熱の原因は、制御システムの障害であり、影響を受けたアベイラビリティーゾーンの一部で複数の冗長冷却システムが故障しました。チラーは午後11時21分(PDT)に復旧し、影響を受けた地域の温度は通常に戻り始めました。温度が正常に戻ると、影響を受けたインスタンスの電力が回復しました。 PDTの午前2時30分までに、インスタンスとボリュームの大部分が回復しました。残りのインスタンスとボリュームの回復に取り組んでいます。少数の残りのインスタンスとボリュームがハードウェア上でホストされており、電力の損失により悪影響を受けました。影響を受けるすべてのインスタンスとボリュームの復旧に引き続き取り組みます。すぐに復旧するために、可能であれば、影響を受ける残りのインスタンスまたはボリュームを交換することをお勧めします。影響を受けるインスタンスの一部では、お客様からのアクションが必要になる場合があり、次の手順でそれらのお客様に連絡します。
冷却システムの故障、だったそうです。
空調なのか、ハード毎の冷却システムなのかなど不明です。
8/25追記:詳細出ました
東京リージョン (AP-NORTHEAST-1) で発生した Amazon EC2 と Amazon EBS の事象概要
日本時間 2019年8月23日 12:36 より、東京リージョン (AP-NORTHEAST-1) の単一のアベイラビリティゾーンで、一定の割合の EC2 サーバのオーバーヒートが発生しました。この結果、当該アベイラビリティゾーンの EC2 インスタンス及び EBS ボリュームのパフォーマンスの劣化が発生しました。このオーバーヒートは、影響を受けたアベイラビリティゾーン中の一部の冗長化された空調設備の管理システム障害が原因です。日本時間 15:21 に冷却装置は復旧し、室温が通常状態に戻り始めました。室温が通常状態に戻ったことで、影響を受けたインスタンスの電源が回復しました。日本時間 18:30 より大部分の影響を受けた EC2 インスタンスと EBS ボリュームは回復しました。少数の EC2 インスタンスと EBS ボリュームは、電源の喪失と過大な熱量の影響を受けたハードウェアホスト上で動作していました。これらのインスタンスとボリュームの復旧には時間がかかり、一部につきましては基盤のハードウェアの障害によりリタイアが必要でした。
8/23障害の詳細出ました。
機器個別の冷却装置ではなく「空調設備」関連の障害のようですが、「~の管理システム」というのがよくわかりません。
空調設備事態の障害ではなく、これを管理しているサーバーか何かが障害を起こし、空調設備をうまく制御できなくなったという事か・・・?
ドキュメントを読むと、どうも温度情報などを取るインタフェース周りにバグがあり、ハングアップしたように見えます。
ユーザ側の対策としては、事前にマルチAZで環境をこさえておく・・・というのもありますが、今回の場合はそもそも複数AZが死んだ、という話もあったりしますので、これで対処できるたかどうか。
東京以外のリージョンを併用するなども、考える必要がありそうです。
8/30追記:AWS、当初の見解(影響範囲・対策)を撤回
2019年8月28日(日本時間)更新:
最初の事象概要で言及した通り、今回のイベントは、東京リージョンの1つのアベイラビリティゾーン(AZ)の一部に影響を与えました。この影響は当該 AZ の Amazon EC2 および Amazon EBS のリソースに対するものですが、基盤としている EC2 インスタンスが影響を受けた場合には、当該 AZ の他のサービス(RDS、 Redshift、 ElastiCache および Workspaces 等)にも影響がありました。お客様と今回のイベントの調査をさらに進めたところ、 個別のケースのいくつかで、複数のアベイラビリティゾーンで稼働していたお客様のアプリケーションにも、予期せぬ影響(例えば、 Application Load Balancer を AWS Web Application Firewall やスティッキーセッションと組み合わせてご利用しているお客様の一部で、想定されるより高い割合でリクエストが Internal Server Error を返す)があったことを AWS では確認しております。AWS では、個別の問題についての詳細な情報を、影響を受けたお客様に直接、共有を行う予定です。
AWSが、当初の見解(影響範囲・対策)を撤回しました。
- 影響範囲は、EC2・RDSのみならず、他のサービスにも広がっている
- 影響AZは、当初の northeast-1 のみならず、他のAZにも広がっている模様
- 上記により、当初の「今回同様の障害を回避するため、マルチAZで構築せよ」という対策案は崩壊。「個別に対応」としている
- 但し、障害原因については特に訂正などは無し