【cloudpack 大阪 BLOG】pagerduty始めました・・・[イレギュラーな事態が発生した時の対応方法その①]
pagerdutyによりアラートに対する見える化(発生・対応中・クローズ・分析)が
出来るようになるわけですが、
pagerdutyに関係なくサービスとしてイレギュラーな事は日々現場で発生します。
pagerdutyに関連する事象だと管理対象であるサービスの急なメンテナンスへの対応やアラート対応の担当者の急な予定変更etc
今回はそんなイレギュラーな対応をpagerdutyでどうオペレーションするのか記載します。
サービスの急なメンテナンス
pagerdutyはアラートをインシデントとして管理する為に、サービスのメンテナンス時などで監視サーバー(nagiosやsensu etc)でアラート通知をOFFできない場合に、
pagerduty側で通知受付を止める事が出来ます。
通知を放置していると担当者によるクローズの操作も必要になりますし、後で分析したい場合のノイズになるので、メンテナンスをちゃんと認識して対応しておく必要があります。
Maintenanceに対する方法は3種類あり、いずれも簡単な操作で対応は可能です。
まず対象のサービスを選択して詳細画面を表示します(編集画面への遷移は不要です)
画面右側のUIに
•Schedule new maintenance
•Disable this service
•Immdeiate Maintenance
があり、そのどれか何れかを選択する事により、Maintenance状況にサービスを変更できます。
Schedule new maintenance
Maintenanceを時間で設定する事が可能です。
※Schedule new maintenanceを複数回操作する事により、Maintenance期間を複数期間設定する事も可能です。
Immdeiate Maintenance
5 min•15 min•30 min•60 minから1clickで選んだ時間内でMaintenance状態に出来ます。
なおSchedule new maintenance/Disable this serviceで時間指定をしてMaintenanceに
解除する場合は、
Maintenance中に上記UIが右側に表示されますので
editを選択して、Edit Maintenance Windowを開き
の
End this maintenance window now
を押下する事により、Maintenanceを解除できます。
※上記UIからMaintenance時間の変更も可能です。
Disable this service
Maintenance期間設定無しにいきなり止めます。
Enable this serviceですぐに再開できるので、Maintenance期間が未定な場合に使います。
このようにpagerdutyは簡単にMaintenance状態に設定する事が可能です。
もう一つのイレギュラー対応は次回のブログで。