この記事は、トラストバンク Advent Calendar 2023の18日目です。
今年はIT健保メシとトスラブ箱根をコンプし、IT健保ジムにも通いはじめ、IT健保を満喫しているSREのbutadoraです。
私の観測範囲だとあまり採用事例を見かけない、さくらのクラウドのサービスである「シンプル監視」を推したいと思います。
死活監視に求めるもの
マネージドサービスで運用できる
別プラットフォーム
- 死活監視はあくまでアプリケーションが稼働するプラットフォーム自体を含めて稼働しているか確認できるような構成にする
- 想定されるパターンとして、AWS上で稼働しているアプリケーションをAWS上で構築された監視サービスを利用していると、AWS全体で障害が起きたときに即座に気づくことができない可能性がある*1
- とはいえ弊社のシステムは主にさくらのクラウドで動いているのでこのポリシーは満たせていないものの、NewRelicのSynthetics Monitoringを併用してクリアとしている現状
さくらのクラウド シンプル監視とは
その名のとおりさくらのクラウドで提供されているシンプルな監視サービスです
シナリオ監視のようなリッチなことはできないものの、1エンドポイントあたり月額22円とリーズナブルに利用できます
- ただし、IPv6やAAAAレコードなFQDNはサポートしていません
- 通知先はメールの他、SlackやDiscordといったWebhookでも通知ができます
- 弊社では専らHTTPSなエンドポイントのFQDN監視してSlackで通知を受けています
おすすめポイント
AWS以外のプラットフォームから監視できる👍
再試行時間と回数が設定できる👍
- 他サービスだと単位時間ごとにチェックして、三振したらみたいな設定が多い記憶なので素早いダウン検知が可能です
- 例えばチェック間隔60秒で設定、fail時に10秒おきに再試行して3回失敗したらダウン検知とするみたいなことができます
まとめ
死活監視をマネージドサービスで監視をすると、意外と高くついたり、 誤検知を減らすために再試行回数を増やして検知が遅れるなどあります。
弊社のサービス監視では以前から利用しているさくらのクラウドのシンプル監視ですが、 実際に利用していると痒いところに手が届く良いサービスだなと感じています。 現在AWSへの移行*2を計画していますが、シンプル監視は継続して利用していく方針です。
主観混じりの内容にはなりましたが、みなさんのイチ押しソリューションがあればぜひ教えてください!🙋
最後に
弊社ではSREを絶賛募集中です。
興味がある方はぜひ一度お話ししましょう!