この記事は、トラストバンク Advent Calendar 2023の14日目の記事です。
今年からSREにジョインしているyoshiroooooです。
早いもので、入社エントリーから半年以上が経過し、入社1年が経過しようとしています。
ということで、この1年を振り返って、やってきたこや来期に向けた取り組みを書いてきます。
今年やってきた改善
アラート調査の継続とアラートノイズの低減
アラート調査については入社エントリにも書きましたが、こちらは引き続きの対応です。
入社した頃と比べるとだいぶノイズは減ったと思います。
(もちろん自分一人対応だけではなく、周りのメンバーの協力もあってです)
DB周りのアラートは、MySQLスローログやバイナリログを泥臭く解析して、原因調査もすることで、バッチの構成やどんなクエリが流れているのかなど把握できました。
調査はもう少しスマートにできたらと思うところはありますが、今後、改善したいと思います。
ログサーバーのアクセス制限
ログ集約しているサーバーがあり、そこへ開発メンバーがログインしてgrepなどで調査し、負荷上昇やディスク容量のアラートを検知する状況でした。
また、一部のログについては、開発メンバーなら誰でもアクセスできてしまうことは、セキュリティリスクがありました。
そこで、弊社はNewRelicを導入しているのですが、今後のログ調査はNewRelicで行ってもらうようにし、サーバーへのアクセスを制限しました。
アクセス制限だけであればすぐに対応できますが、ログサーバーにログインする必要がある現状をヒアリングして、NewRelicの運用に寄せても問題ないか、開発メンバーと調整しています。
SREに限らずだと思いますが、物事をスムーズに進めるには、こうした事前の調整が必要で、運用改善するときにも大事なことだと思っています。
その後は、開発メンバーのアクセスはなくなり、アラートもなくなりました。
コスト(お金)削減
コスト削減は、シビアな状況になってからだと、張り詰めた気持ちで、超頑張らないといけません。。
幸い、今のところは差し迫ってコスト削減を進める必要はなく、この状況下であれば、心に余裕を持つことができますので、今のうちにということで、削減を進めることにしました。
コスト分析した結果、削減対象としては、インフラに絞りました。
他にも業務で使っているGitHubのライセンスなどもありますが、あまりインパクトのある削減コストではなく、仮に削減しようとしても諸々の調整する工数がありますので、削減対象から外しました。
下記に書いていますが、現状のインフラはさくらのクラウドが主要で、新しいサービスの立ち上げなどでは、AWSを使っています。
※ この後にも少し書きますが、来年からは、さくらのクラウドからAWSへの移行に向けて動き出します!
まず、AWSについては、いろいろな要件で新規環境を構築したものの、その後、不要になったリソースを削除しました。
(Terraformで管理しているので、対象のコードをごっそり消して、リソースを削除していく)
あとは、リザーブドインスタンス(RI)やSavings Plans(SP)の恩恵も受けられそうなので、適用しようと思いましたが、ふるさと納税の制度改正によるアクセス数増加に向けた対応が入り、いろいろ対応することが出てきたので、一旦、お見送りに。
AWS移行が進んできたら、また適用を検討します。
さくらについては、AWSと同様に不要なリソースがけっこう出てきましたので、それらは削除しましたが、ディスクなどのバックアップも多くありました。
歴史的な経緯だと思いますが、サーバを入れ替えるタイミングなどで取得しておいたと思われるバックアップが溜まっている状況でした。
何かのために取得しておく必要はあると思いますが、もう数年以上経過しているバックアップは、さすがに使わないだろうと。
バックアップ要否を確認し、バックアップを削除しましたが、さくらのコスト削減が最もインパクトがありました(なんと、数十万/月)
来年の取り組み
AWS移行
今年は新規環境構築などもしましたが、既存システムでのつらさもいろいろと経験してきました。
そんな中、ようやくAWS移行が再始動しますが、まず移行するのは、昨年の記事にも書いてある地域通貨事業のchiicaです。
もともと、chiicaを含めて、他のシステムも良い感じに移行に向けて進み始めていたものの、他の案件との兼ね合いもあり、空いた時間で進める、というベストエフォートでの対応となっていたため、本番環境の移行まで進まず。。
そこで、まずはchiicaの移行をプロジェクト化して、しっかりリソースを確保する流れにしました。
(ちょうど、会社としても移行を進めていこうという話が再び上がってきたのも良い流れでした)
「移行やるよ」宣言をして、他の案件があっても、これで堂々と突き進むことができるはずです!
移行計画を整理し直したり、移行に関わるメンバーのリソース確保だったりとPM的な動きも必要ですが、突き進むためには、今はこの進め方が最善かと考えていますので、しっかりやり切りたいと思います。
chiicaを先に移行することには大きな意味があります。
現状、ふるさとチョイスとchiicaは同じサーバに共存しており(一部は分離済み)、この状態では、双方のサービスに注意しながら作業を進めたり、移行中に双方のサービスに影響が出るリスクがあります。
そのため、先にchiicaだけ引き剥がしておくことで、チョイスを移行するときには、チョイスに専念して移行できるようにします。
1年通して感じたこと
やっぱりやること多いけど・・・
AWS移行だけではなく、他にもいろんなイベントがこの先に控えており、その中でも運用改善、サービスの信頼性向上、開発者体験の向上などやることがあります。
人的リソースも限られている中でどう進めるか、これを常に考える必要があります。
ですが、開発組織をリードする方もジョインしてきているので、来年以降、一緒にああだこうだ言いながら、組織面でもシステム面でも前進できたらと思っています!
フルリモートは最高
フルリモート歴が1年となりましたが、今の生活リズムが心地よくて、毎日通勤という生活には戻れなくなったかもしれません。。
職住隣接という言葉がありますが、文字通り、職場に近い場所に住む、ということで、通勤時間を短縮し、ワークライフバランスが取れたりというメリットがあります。
私も以前は電車通勤で、通勤時間は本でも読めば時間を有効に使えると思っていました。
ですが、リモートでは、朝型の自分の場合、朝は犬の散歩・朝食・家事をしても、8時くらいからは仕事を始められる状態にあり、調べごとをする時間に割り当てたりできます。
(家事も手伝うようになって、奥さんからの信頼を貯める。まさにトラストバンク。外で飲むには信頼残高を増やすことが大事。)
夜は、仕事を終えてそのままPCの前で本を読んだり、技術的な調べこともPCですぐにできますので、時間を有効に使えているのかなと感じています。
コロナ禍が落ち着き、出社となる方が多くなっていると思いますが、フルリモートが続けられずに悔しい思いをしているなら、弊社に転職してみては?、と下記の記事に続けて、煽っておきます。
エンジニア募集
弊社ではSREを絶賛募集中です。
興味がある方はぜひ一度お話ししましょう!