トラストバンクテックブログ

株式会社トラストバンクのプロダクト系メンバーによるブログです

SREで進めてきた運用改善!

GPTで作成してもらったイメージ画像

この記事はトラストバンクAdventCalendar 17日目になります!

SREグループで活動しているyoshiroooです。

入社してまもなく2年になりますが、この1年、特に後半は運用改善に積極的に取り組んできました。

まだ着手中の取り組みもありますが、今年進めた改善の中から1つをピックアップし、テクニカルライティングを意識しながら、取り組み内容をご紹介します!

(特に『一文一義で書く』『一文50文字程度で書く』を意識しましたが、『できてないじゃん!』というツッコミは社内で受け付けます。。。)

トイル撲滅に向けたSRE問い合わせ・作業依頼の改善

私が所属しているSREはふるさとチョイスやそれに関連するシステム、chiicaなど、対応範囲が広いため、問い合わせが増える傾向にあります。

弊社ではコミュニケーションツールとしてSlackを利用しており、さまざまなチャンネルからSRE宛のメンションで問い合わせが寄せられるため、以下のような課題が発生していました。

  • 複数のチャンネルからの問い合わせによる運用負荷の増加
  • 問い合わせの分散による作業漏れのリスク

ただ、これらの問い合わせは運用負荷になる一方で、トイルと見なせるものも多く、改善の余地がたくさんありました。

この現状を踏まえ、下記を進めることにしました。

問い合わせ・作業依頼集約

新たにSRE問い合わせ用チャンネルを作成し、問い合わせや作業依頼を集約することにしました。

変更前イメージ

変更後イメージ

さらに、問い合わせや作業依頼はSlackのワークフローを使う運用にしています。

問い合わせをワークフロー経由で行うと、自動的にGitHub issueが作成される仕組みです。

詳細は割愛しますが、SREではタスクをissueで管理しているため、上記の仕組みで作業漏れを防ぐことができます。

さらに、全てがissue化されるため、問い合わせや作業依頼を分析し、ボトルネックの特定や改善につなげることができます。

issueの分析

皆さんの協力のおかげで運用は順調に進んでいますが、現状を把握し、今後の改善につなげるため、これまで蓄積してきたissueを分析します。

その中で検討したのが「改善の効果をどう計測するか」です。

改善によって大きな効果が目に見えることもありますが、小さな積み重ねが改善につながることもあります。

弊社SREチームでは検討の結果、「いかに定常業務を減らし、プロジェクトとSRE積極的改善の割合を増やせるか」、この割合を計測することにしました。

定常業務とは、テスト環境に関する問い合わせや不具合などの調査依頼、障害対応が含まれ、下記はイメージになります。

SREでは毎日朝会を実施し、ワークフローから発生したissueも含め、作業の確認・調整を行っています。

その際、新規issueは、円グラフにある分類(実際はさらに細かく分けていますが)に当てはめ、その場で種類分けを行います。

こうすることで、SREが対応する作業のうち、定常業務が何割を占めるのかを計測できるようにしています。

現状はGitHub CLIを使ってissueを取得し、スプレッドシートに取り込んで分析しています。

ただし、定期的に分析するのは負担が大きいため、今後はもっと楽に計測できるよう仕組み化を進めているところです。

この仕組み化については、今年入社し、すでにアドベントカレンダー振り返り記事も書いたメンバーがチョチョイのチョイタで対応中です。

他にも取り組み始めていること

やるべきことはまだまだ多く、少しずつではありますが、以下の取り組みを進めています。

これらの取り組みについては、運用後に改めて記事にまとめられればと考えています。

パフォーマンス定期観測会

この会は、プロダクトの可用性やパフォーマンス向上、品質改善を目的としています。

他社さんでも取り組んでいるところは多いかと思いますが、弊社でもまずは実践してみようという取り組みです。

観測会の進め方はすでに検討し、ドキュメントにまとめて参加メンバーにも展開済みで、あとは運用しながら調整する段階です。

最初は参加メンバーを絞って小規模に運用を開始し、手応えが得られた段階で徐々に参加メンバーを増やしていく予定です。

ドキュメントの運用改善とルール策定

ドキュメントは陳腐化しやすく、運用が難しい課題があります。。

今年入社した開発メンバーが書いたこちらの記事を見て、やはりドキュメントの重要性を再認識しました。

SREチームでもドキュメントは残っているものの、更新が止まっているものや、置き場所が統一されていない課題がありました。

そこで、以下の内容をまとめた運用ルールを策定し、運用しながら調整を進めることにしました。

  • ドキュメントの置き場所
  • ドキュメント種類の設定
  • ドキュメントのメンテナンス要不要
  • メンテナンス要のドキュメントの定期的な棚卸し

運用を進める中で、面倒な点や見直すべきルールも出てくると思いますが、まずは実践からスタートです。

まとめ

この記事で紹介した改善内容は一部で、まだまだ取り組むべき課題が残っています。

今回は技術面については触れていませんが、もちろん技術的な改善も進めています。

その分、SREとしても個人としても成長の余地は多くあります。

これからも前のめりな気持ちを持ち、楽しみながらさまざまな課題に取り組んでいきたいと思います!

さいごに

トラストバンクでは、一緒に働く仲間を絶賛募集しています!

トラストバンク Advent Calendar 2024を見て、少しでも気になった方は、是非ご連絡ください!