【参加】#qpstudy 2016.04 響け!アラートコール! 本編 一般枠 on Zusaar
#qpstudy 2016.04 響け!アラートコール! 本編 一般枠 on Zusaar
に参加した。
※ Zusaar2016/06/30に終了するので、リンク先はいずれなくなる。
テーマは監視と運用とその自動化等々について
途中で、いきなりグループディスカッションが入った。
細かい話は、全部理解できなかったし、誰かがブログとかにまとめてくれるだろうから後で探そう。
このイベントに集まっている人たちは国内屈指のインフラエンジアの人たちなので
すごくうまいやり方があるのかなと思っていたけれども、苦労しているみたい。
まあ、色々な事情があるから、問題がなくなることはないのかも。
色々な選択肢や、事情があることが知れて勉強になった。
※zusaarなくなると見れなくなるから、資料のリンクは貼っておく。
あと、自分の状況をあらためて考えてみた。
自分の立場としては、WEB系のサービスのアプリケーション開発者、専属のインフラエンジニアがいないので、自分で監視とかもやっている。
監視ツールは、MackerelとNewRelicを無料の範囲内で使っている。Mackerelの外形監視とか使いたいけど有料。あと、無料だと履歴が1日しか持たない。
Mackerelをメインで使っている。スマホで見るのに良い。カスタムメトリックがWebAPIで簡単に組めて便利。
NewRelicは無料で使える台数に制限がないのが良い、Syntheticsで外形監視が出来るのが良い。
CPU、メモリ、ディスク容量とかは、一定の閾値を設け、MackerelとNewRelicで通知。
設定値は経験で、過去の障害時や安定稼働時の状況を見て設定。
外形監視は、独自バッチで定期的に監視、特定のURLに対して、正しいレスポンス文字列が返ってくるかで判断。あと、通常の処理(会員登録とか)が一定間隔以上ない場合は、問題(エラー、極端に重い、回線障害等々)が発生していると判断でメールで通知。
あと、幾つかのURLに対してレスポンスを計測するバッチを組んで、Mackrelのカスタムメトリックスで表示。無料プランだと1日しか保持できない。Zabbix入れるサーバが用意できないので、独自で何か用意するか。
監視、運用にさく時間があまり取れないので、障害が起きないように最低限の作業しているぐらいか。もうちょっと色々監視したい(SQLとか、パフォーマンス周りについて等々)。
休日、夜間とか、移動中、電波の届かないところ、遠くに出かけている時とかにアラートが起こると辛い。なんとか楽したい。。
あと、監視、運用系は問題が起きていない間は、大変度合いが、周りに伝わってこないと思うので、そこら辺を周りに上手く伝えるようにしていきたい。障害が起こった時に責任を問われるだけだと辛いので。。