障害対応
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/20 07:41 UTC 版)
障害が発生した際にいち早くそれを検知する為の仕組みを組み込んで日々確認作業を行う監視運用、障害箇所を調査・特定しサービス復旧に向けて作業を行う障害対策などが障害対応にあたる。 監視: 正常性・異常性を計測ロギング: メトリクスのもととなるログの収集 障害検知/fault detectionデッドマン装置・ウォッチドッグタイマー: 正常性の監視(信号途絶を異常とする) 集約: 状態を一か所に集約(ダッシュボード) 通知: 状態を対象者へ伝達 復旧: 異常状態から正常状態への遷移自動修復: auto healingとも。事前に組み込まれたプログラムによる自動的な復旧(c.f. k8s auto healing) 縮退運転/fallback: 正常状態へ復旧できない場合に移行される、意図的に機能を限定された半正常状態での運用
※この「障害対応」の解説は、「システム運用」の解説の一部です。
「障害対応」を含む「システム運用」の記事については、「システム運用」の概要を参照ください。
- 障害対応のページへのリンク