SRE4人目としてジョインしました!

2023年1月より、SREの4人目としてジョインしたyoshiroooooです。

あっという間に3ヶ月の試用期間が過ぎましたが、ジョインするまでの経緯や、ジョインしてからやったこと、感じたことをまとめます!

入社する前から、自分の一発目の記事として、こういうタイトルで書くんだ!、という気持ちがあったんですが、「まぁ試用期間あけてからかな、、、」と思い、今です。

ジョインするまで

前職では、マッチングサービスに携わっていて、そこでもSREやっていました。

これからサービスが成長するぞ、というところから携わるようになり、トラフィックが増え、その中でパフォーマンスチューニングや障害対応など、SREとして良い経験を積ませてもらいました。

良い歳になってきて、今後のワークライフバランスを考えた時に、コロナ禍をきっかけに始まったフルリモート作業でも十分に仕事ができると感じ、転職を考え始めるようになりました。

もちろん、エンジニアとしてのレベルもまだまだ高めたいというも気持ちもあってですが。

そんな中で出会ったのがトラストバンクで、自立した持続可能な地域を実現するために展開している事業・サービスが良いなと思ったこと、また、下記のあたりがポイントでこの会社で働いてみたいと思い、入社させてもらいました。

あと、僕はAWSが好きなんですが、≪TB INTERVIEW≫の記事に「とにかくAWSを弄り倒したい方」ということも書かれていて、弄りたいぞ!と思ったのもあります。

やったこと

正直、まだまだキャッチアップ段階で、そこまで立派にかけることはないんですが(滝汗)、ちょっと挙げていきます。

インフラ構成の把握

自分が所属するSREは、組織を横断してインフラを支えたり、開発者体験を向上させたりしていくのですが、会社が成長しているフェーズで、新しい事業も立ち上がっていることもあって、システムが多いです。。。

2022年の途中までは、SREが2人ということもあって、だいぶリソースが限られていたと思うんですが、そんな中でもインフラ構成図など資料はあったので、まずはその辺りを一通り見ていきました。

これはいきなり全てを把握することは難しいかも、、、と思い、面倒見ているシステムを整理して、SREメンバーに時間をもらって、サービス影響の大きさなどから把握していく優先順位をつけて、把握することにしました。

弊社では基本的にフルIaCを進めていることもあり、コード(Terraform・Ansible)を見ればわかることが多かったので、その点は助かりました。

アラート調査とその対策

インフラ構成を把握する時は、先に挙げたような座学や資料からの環境確認も必要ですが、ボリュームが多いと、全部を把握するのは大変。。。

そこで、自分の場合は、調査や分析をすることが好きというのもあるのですが、検知したアラートは基本的に全て原因調査し、一時的な事象でないなら、対策するところまでやるようにしています。

既知のアラートというのもあって、サービスに影響がなく、そのまま保留状態になっているものもありましたが、新人の自分にとっては既知とかありませんので、とにかくissueを立てて調査させてもらいました。

そうすると当たり前ですが、原因調査することになり、インフラやアプリケーションの構成を把握しないといけないので、自動的に?インプットされますw

血となり肉となる、ような感じです。

いくつか対策して、止まったアラートもありますが、これからもアラートノックを受けていきたいと思います(違う)

そもそも不要な監視設定があるかもしれませんので、それは見直したり、抜本的にインフラ構成などの改善が必要なら、それは対策していきます。

ドキュメント整理

先に書いた通り、SREのリソースは限られている中で、けっこうなスピードでインフラや開発の環境が変わってきているのですが、ドキュメントが追いついていません。。

なので、自分が入社して新鮮な感じでいる間に、用意しておいた方が良いと思うドキュメントを洗い出し、SREメンバーの中で話し合い、用意するもの・しないものを決めました。

(Terraformのコードやプルリク(なぜその実装にしたか)を見ればわかるものはドキュメント化しない、など)

ドキュメントは重要ですが、全部をドキュメント化することで、今度はそのドキュメントを更新するという工数が発生し、いつの間にかまたドキュメントが陳腐化するということになりかねませんので。。

そこからissueを立てて、今後、時間を確保して、不足している・古くなっているドキュメントを作成・更新します。

AWS移行

ふるさとチョイスを取り巻くインフラ環境2022 - トラストバンクテックブログ の記事にもありますが、大半のサービスの本番環境はさくらのクラウドで稼働しています。

これを徐々にAWSへ移行していこうと準備を進めていますが、そのうちのOEMサイトの移行を進めました。

インフラの移行になるので、慎重に進め、そして有事の際には即切り戻し、サービス影響のリスクを軽減したいところですが、そんな時に利用したのが、Cloudflareのロードバランシングです。

さくらとAWSの2つのクラウドに対して、トラフィック割合を調整することができて、稼働確認しながら、徐々にAWSトラフィックを寄せるということができます。

このおかげでカナリアリリース的な移行ができました!

どんなリリースも障害ゼロと言い切ることはできませんので、いざ障害が出た時に、落ち着いて切り戻してサービス復旧する必要があります。

この安心感があるだけで、どんなリリースも怖くありません・・・!

感じたこと

フルリモートでもコミュニケーションは大丈夫そう

前職でもリモート作業でしたが、出社するケースもあり、フルリモートでの作業は初めてでした。

普段一緒に作業するメンバーとのコミュニケーション面でどうかな、と思ったんですが、割と良い感じでコミュニケーションが取れています。

自分が所属するSREは、日々朝会でタスク確認や課題共有などしていますが、ゆるい雑談の時間もあったりして、仕事以外の面でも話すことがあるので、フルリモートの中でも関係値も高められているのかなと思っています。

フルリモートだからこそ、ということもありませんが、個人的にはやっぱり雑談も大事かなと。

たまにはオフラインで飲み会もあったりします!(自分が入社してからは、毎月のようにオフラインで会っている気がする。。)

メンバーに恵まれている

転職する際のポイントの1つに、誰と、どんなチームで働けるかとということを重要視していましたが、面接でのフィーリングは間違っていなくて、SREメンバーは話しやすい感じで、忙しい中でも良い雰囲気で作業できています。

転職先でどんなに自分がやりたいことがあっても、たとえば、一緒にやっていくメンバーが相手のことを考えない人だったり、チームプレーの面では協力体制がないと、困難な場面を乗り越えることが難しいと思っています。

まだ入社してから浅く、コミュニケーション取れていない方もいますが、少しずつ他部署のメンバーと話すケースも増えてきていて、そこでも話しやすい雰囲気があるかなと思っています。

とりあえず試してみる文化って好き

やっぱり新しい技術は気になるので、とりあえず試してみて、結果、運用工数の削減に繋がったり何か効果が見込めるなら、工数とのバランスもありますが、個人的には、とりあえず試してみる、は良いと思っています。

逆に思ったようなことができなかった時は、捨てるくらいの気持ちで。

この文化が弊社のSREにはあると思っていまして、提案・相談しやすい雰囲気があります。

ビジネス面で何かしらの課題があって、それを解決するための技術で、手段でしかない、という話もありますし、たしかにその通りだと思いますが、技術面で見つけた「こんなのがある」から課題解決につながることもあると思いますので、この雰囲気が好きです。

今後

3人目のSREとしてジョインして半年やってきた話 - トラストバンクテックブログの記事にもありますが、Toilの自動化や監視周りの整備などやること盛り沢山です・・・!

まずはToilの自動化を進めることで、リソースを確保しつつ、サービスの信頼性や開発者体験の向上に積極的に取り組んでいきたいと思います。

その先にまた何か新しい景色が見えてくるはず。。

そして、これは良い!と思った改善事例などはこのブログで紹介できたらと思います。

最後に

弊社ではSREを絶賛募集中です!

ふるさと納税の市場規模は大きく、今後も成長していくことが見込まれていますが、トラフィックも増大していきます。

そんな中で、パフォーマンス改善や、会社の戦略方針に応える開発スピードの向上などが求められますし、やるべきことは沢山あります。

このフェーズでトラストバンクにジョインし、自分達で変えていければ、間違いなく良い経験になりますし、その先には新たなチャレンジができるステージがあるかもしれません!

「仕事の報酬は仕事」っていうやつですw

今回のこちらの記事やリンクの記事を見て、少しでもトラストバンクに興味が出てきましたら、お気軽にカジュアル面談に申し込んで頂けたら幸いです!

www.wantedly.com