PagerDuty始めました。インシデントの可視化を行うPagerDutyのレポート機能【cloudpack 大阪 BLOG】
cloudpack大阪のメンバーのBLOGが続々と公開されました。
元開発メンバー3名・インフラエンジニアからの異色のチームですが
元開発メンバーはどんどんインフラ力を吸収し(cloudpackでの時間は
通常の三倍以上と言われています)、日々成長していますw
※本音は元開発メンバーでも全員技術&リーダーも出来るので、
※短期的な事を考えると、開発で月30人月ぐらい回すほうがありかなと思ったりもしますw
で、今回はPgaerDutyのReoprts機能です。
PgaerDutyのReoprts機能ですが、導入初期に関してはうーんあまり使わないなーって感じで考えていました・・・が
こんな画面で、System/Team/User/Alerts/Incidentsタブで観点(画面)を変更し、
Report by:でService/Escalation Policyを選択(cloudpackのMSPな使い方だと
Service)、
Day/Week/Month/期間設定で表示範囲を指定、
ViewでNumber of Incidents/Mean Time to Acknowledge/Median Time to Acknowledge/90th Percentile Time to Acknowledge/Mean Time to Resolve/Median Time to Resolve/90th Percentile Time to Resolveを指定します。
ざっくりとインシデントの総数やMTTA(Acknowledge(着手)するまでの平均時間)やMTTR(Resolve(解決)するまでの平均時間)などを見て、
各監視対象に対しての客観的な判断が可能となります。
また詳細に関してはIncidents TABを選択し、
日ごとのリストが出ますのでView Onlineや自動化ならDownload CSVでファイルで
日単位で発生したインシデントを確認する事が可能です。
View Onlineで日単位の情報を取得し、DurationやEscalated?の値を見て、各インシデントが、cloudpackのサービスとして問題なかったかの確認を行います。
今までは感覚的な部分(問題になったものだけがクローズアップされがちで、
日常のパフォーマンスなどが見えにくかった)が多かったですが、
PagerDutyを導入する事により、インシデント管理を定量的に確認し、
インシデントの多いサービスをピックアップする材料を
PagerDutyで作成する事が可能になったので、この情報を巧く活用していきたいと思います。