ウェブサイト復旧と今後の対応

VPSサーバーのログを調べると2018/04/08 06:21:38の再起動から各サーバーコンテナが起動せず、弊社のウェブサイトが閲覧できなくなっていたました。弊社のウェブサイトはConoHa VPS上にCoreOSをインストールし、Dockerコンテナで稼働してさせています。
CoreOSはセキュリティへのこだわりからOSを最新バージョンに自動アップデートするようになっているのですが、今回の最新バージョンから分散Key-Value Store(KVS)として使用しているETCDサービスがETCD2からETCD3にバージョンアップされました。
分散Key-Value Store(KVS)は、Dockerコンテナ内でコンテナ間のホスト名解決に使用しており、コンテナ間連携ができないため各サーバーコンテナが起動しないという事態に陥りました。

ETCD3で設定を変更しようとしたのですが、解決までの時間がかかりそうでしたので、今回はOSは自動アップデート前のバージョンに戻して再起動して復旧させました。
また、セキュリティ的にはNGなのですが、自動アップデートを止めています。

さらにログを調べると、Dockerコンテナの起動を管理しているfleetサービスが最新バージョンでは使用できなくなった(ETCD3と排他起動)ようです。

セキュリティ面を考えると最新バージョンを使用できるようにしなければならないので、Dockerコンテナの起動管理をKubernetesに変える必要がありそうです。

コメント

タイトルとURLをコピーしました