2015-09-01

PagerDuty始めました。インシデントの可視化を行うPagerDutyのレポート機能【cloudpack 大阪 BLOG】

cloudpack大阪のメンバーのBLOGが続々と公開されました。

<a href="http://pict3.hatenablog.com/entry/2015/08/31/163809" data-mce-href="http://pict3.hatenablog.com/entry/2015/08/31/163809">fluctでお手軽！EC2レスなAWS（API Gateway + Lambda）〜導入編【cloudpack 大阪 BLOG】 - pict3の日記</a>

<a href="http://muranonushi.hatenablog.jp/entry/2015/08/31/200022" data-mce-href="http://muranonushi.hatenablog.jp/entry/2015/08/31/200022">Datadog agentの設定方法【cloudpack 大阪 BLOG】 - J.A.R.V.I.S.を作りたい</a>

<a href="http://cloudfish.hatenablog.com/entry/2015/08/30/184458" data-mce-href="http://cloudfish.hatenablog.com/entry/2015/08/30/184458">ELBとHTTPSとリダイレクトループ【cloudpack 大阪 BLOG】 - cloudfishのブログ</a>元開発メンバー3名・インフラエンジニアからの異色のチームですが

元開発メンバーはどんどんインフラ力を吸収し(cloudpackでの時間は

通常の三倍以上と言われています)、日々成長していますw

※本音は元開発メンバーでも全員技術&リーダーも出来るので、

※短期的な事を考えると、開発で月30人月ぐらい回すほうがありかなと思ったりもしますw

で、今回はPgaerDutyのReoprts機能です。

PgaerDutyのReoprts機能ですが、導入初期に関してはうーんあまり使わないなーって感じで考えていました・・・が

f:id:unioce:20150901160420p:plain

こんな画面で、System/Team/User/Alerts/Incidentsタブで観点(画面)を変更し、

Report by:でService/Escalation Policyを選択(cloudpackのMSPな使い方だと

Service)、

Day/Week/Month/期間設定で表示範囲を指定、

ViewでNumber of Incidents/Mean Time to Acknowledge/Median Time to Acknowledge/90th Percentile Time to Acknowledge/Mean Time to Resolve/Median Time to Resolve/90th Percentile Time to Resolveを指定します。

ざっくりとインシデントの総数やMTTA(Acknowledge(着手)するまでの平均時間)やMTTR(Resolve(解決)するまでの平均時間)などを見て、

各監視対象に対しての客観的な判断が可能となります。

また詳細に関してはIncidents TABを選択し、

f:id:unioce:20150901162943p:plain

日ごとのリストが出ますのでView Onlineや自動化ならDownload CSVでファイルで

日単位で発生したインシデントを確認する事が可能です。

f:id:unioce:20150901165158p:plain

View Onlineで日単位の情報を取得し、DurationやEscalated?の値を見て、各インシデントが、cloudpackのサービスとして問題なかったかの確認を行います。

今までは感覚的な部分(問題になったものだけがクローズアップされがちで、

日常のパフォーマンスなどが見えにくかった)が多かったですが、

PagerDutyを導入する事により、インシデント管理を定量的に確認し、

インシデントの多いサービスをピックアップする材料を

PagerDutyで作成する事が可能になったので、この情報を巧く活用していきたいと思います。

2015-09-01

PagerDuty始めました導入から二ヶ月実際のところどうなのPD?【cloudpack 大阪 BLOG】

OPS-JAWSがオープンな場所で勉強会を開催しました。

運営の方が初めての事というのでオブザーバーとして協力させて頂きましたが

f:id:unioce:20150901194936j:plain

と、ご紹介して頂いて涙・・・って感じでしたが、JAWS-UG大阪じゃなくなっていて

オペレーションじょうずになっていました汗。

多分、第二回早くしろって感じのプレッシャーもあると思いますが、第二回ではなく、

<a href="https://innovationegg.doorkeeper.jp/events/30799" data-mce-href="https://innovationegg.doorkeeper.jp/events/30799">Innovation EGG 第５回『クラウド運用の本音』</a>ってのを10末にしますので許してくださいw。

で、本編です。

cloudpackでPagerDutyを導入したのが5月で、

６月は業務の傍らがんばって運用可能な状況までセッティングして、

７月から運用を開始し二ヶ月が経過しました。

導入前は

f:id:unioce:20150901201451p:plain

な感じの構成でした。

なお導入はUIでポチポチ設定なんてしていたら全然追いつかないので、

APIを駆使し何百のサービス(インスタンス数では無いです。監視サービス数ですw)を

登録の自動化などして他のメンバーが移行に携わらずに出来る状況を作って

移行は一人でやり抜きましたが、移行後の最初はPagerDutyはアラートメールでの

監視のおまけ的なポジションでAckなども気が向いた時にやるって感じでした(涙)・・・が、多拠点運用・複数人による監視などの不特定な状況化で、必要なタイミングで

通知が来て、メールベースだと誰が対応するかslackで名乗りをあげていたのが

ポチッとクリックするだけで、モレや重複して作業をしなくても良いと気づくと

一気にPD最高って話になりました。

よくslackとの連携でアラートをslack上に投げるってのも見ますが、

通知の垂れ流しなので正直使い物になりません。

複雑なcloudpackのMSPのシフトスケジュールもgoogle apps spreadに

記載したものをgoogle apps scriptとPDのAPIで流し込めるようにして

複雑なシフトの入力問題は解決させました。

【cloudpack 大阪 BLOG】pagerduty始めました・・・[いきなりの制約回避編スケジュールとエスカレーションポリシーのハマりどころ] - 雑なA型によるクラウドとモバイルと運営と

環境によっては、監視サーバーにpagerdutyのpluginを入れれない場合や、

メール通知のアドレスの分も修正できないケースの監視サーバーなどもありますが、

そこはメールからgoogle apps scriptでPagerDutyにAPIでインシデントを登録するような対応もしています。

急なシフト変更やサービスのメンテナンスモードの設定も数クリックで設定でき、

非常に便利です。

で、現在はインシデント管理だけではなく

f:id:unioce:20150901202654p:plain

google apps scriptなども駆使して、

backlogの担当者未が設定された通知

EC2•RDS•ダイレクトコネクトのメンテナンス通知

などもMSPの当番の人にエスカレーションされるようになっています。

※赤色の線の部分はリストラ予定ですw。hubotやDBはLambdaとDynamo DBに変更して

※ フルマネージドな環境にします(hubot飽きたw)。

google apps scriptもたまに謎のエラーが出ますが、これもPagerDutyで管理しており、

google apps scriptのエラーの場合、ここを見てねってのがPagerDutyのDescriptionに

記載しているので、googleの謎のアラートもどんと来いですw

とりあえず2ヶ月間が立ちましたが、MSPの運用負荷の削減にもなったので(運用も

一部見直したのもありますが、PDが無ければ出来なかった)

PagerDutyのcloudpackのMSPへの導入は当たりだったと思います。

皆様も是非活用して、TIPSのアウトプットしてください〜