さくらのクラウド シンプル監視はいいぞ

この記事は、トラストバンク Advent Calendar 2023の18日目です。

今年はIT健保メシとトスラブ箱根をコンプし、IT健保ジムにも通いはじめ、IT健保を満喫しているSREのbutadoraです。

私の観測範囲だとあまり採用事例を見かけない、さくらのクラウドのサービスである「シンプル監視」を推したいと思います。

死活監視に求めるもの

マネージドサービスで運用できる

  • 自前でスクリプトを作ったり、監視ソフトウェアを用意しない
  • 小規模な組織だとそのスクリプトやソフトウェアの管理コストの方が高くなるため

別プラットフォーム

  • 死活監視はあくまでアプリケーションが稼働するプラットフォーム自体を含めて稼働しているか確認できるような構成にする
  • 想定されるパターンとして、AWS上で稼働しているアプリケーションをAWS上で構築された監視サービスを利用していると、AWS全体で障害が起きたときに即座に気づくことができない可能性がある*1
  • とはいえ弊社のシステムは主にさくらのクラウドで動いているのでこのポリシーは満たせていないものの、NewRelicのSynthetics Monitoringを併用してクリアとしている現状

さくらのクラウド シンプル監視とは

  • その名のとおりさくらのクラウドで提供されているシンプルな監視サービスです

    manual.sakura.ad.jp

  • シナリオ監視のようなリッチなことはできないものの、1エンドポイントあたり月額22円とリーズナブルに利用できます

  • ただし、IPv6やAAAAレコードなFQDNはサポートしていません
  • 通知先はメールの他、SlackやDiscordといったWebhookでも通知ができます
  • 弊社では専らHTTPSなエンドポイントのFQDN監視してSlackで通知を受けています

おすすめポイント

AWS以外のプラットフォームから監視できる👍

  • 当たり前ですが、さくらのクラウドのサービスなので別プラットフォームからのマネージドな監視を実現できます
  • さくらのクラウドは東京と石狩にリージョンがあるため、日本の地理的にも分散していると信じたい

再試行時間と回数が設定できる👍

  • 他サービスだと単位時間ごとにチェックして、三振したらみたいな設定が多い記憶なので素早いダウン検知が可能です
  • 例えばチェック間隔60秒で設定、fail時に10秒おきに再試行して3回失敗したらダウン検知とするみたいなことができます

まとめ

死活監視をマネージドサービスで監視をすると、意外と高くついたり、 誤検知を減らすために再試行回数を増やして検知が遅れるなどあります。

弊社のサービス監視では以前から利用しているさくらのクラウドのシンプル監視ですが、 実際に利用していると痒いところに手が届く良いサービスだなと感じています。 現在AWSへの移行*2を計画していますが、シンプル監視は継続して利用していく方針です。

主観混じりの内容にはなりましたが、みなさんのイチ押しソリューションがあればぜひ教えてください!🙋

最後に

弊社ではSREを絶賛募集中です。

興味がある方はぜひ一度お話ししましょう!

www.wantedly.com

*1:とはいえAWS全体で障害が起きればSNSがザワザワするので気づけなくはないのかも

*2:https://tech.trustbank.co.jp/entry/2023/12/14/083008