SREの育休

サービスリライアビリティ部の神谷です。

3か月間の育児休暇を取得しました。

この記事では育児休暇の取得における業務の引き継ぎについてSREの観点から考えたことを紹介します。

SREの定義

2025年3月に「CREATIVE BLOOM TEXT AdsのSLO策定と活用」という記事(以下記事T)を書きました。

記事Tで書籍『SREをはじめよう ― 個人と組織による信頼性獲得への第一歩』 からSREの定義を引用しました。

サイトリライアビリティエンジニアリングは、組織がシステム、サービス、製品において適切なレベルの信頼性を持続的に達成できるよう支援することを目的とした工学分野である。

このSREの定義に当てはめると記事Tは「組織(博報堂テクノロジーズ)がサービス(CREATIVE BLOOM TEXT Ads)において適切なレベルの信頼性を持続的に達成できるよう支援することを目的」として、SLOを策定・活用した記事といえます。

SREの定義から育児休暇を考えてみましょう。

サービスリライアビリティ部では業務の大部分でSlack、Notion、GitHubなどのWebアプリケーションを使っています。個々のメンバーをWebアプリケーションを操作するノードとして捉えると、サービスリライアビリティ部は個々のメンバーをノードとしたクラスタで構成されるシステムとみなせます。

SREの定義に当てはめると「組織(博報堂テクノロジーズ)がシステム(サービスリライアビリティ部)において適切なレベルの信頼性を持続的に達成する」となります。

SREの定義記事T本記事
組織博報堂テクノロジーズ博報堂テクノロジーズ
システム、サービス、製品サービス(CREATIVE BLOOM TEXT Ads)システム(サービスリライアビリティ部)

また、メンバーの育休をノードの計画停止としてみなすと、メンバーが育休取得中のサービスリライアビリティ部の運用は、通常よりノード数を減らした状態でクラスタを動かす運用にあたります。

クラスタサービスリライアビリティ部
ノードメンバー
ノードの計画停止メンバーの育休
通常よりノード数を減らした状態でクラスタを動かす運用メンバーが育休取得中のサービスリライアビリティ部の運用

この記事ではノードの計画停止の準備、すなわち育休取得前の業務の引き継ぎについて紹介します。

引き継ぎ

業務の引き継ぎでは3つの点に注意しました。

  • 早めに準備する
  • 移行期間を設ける
  • Be Open

早めに準備する

育休に入る半年ほど前から準備を始めました。

早めに準備を始めることで2つの利点がありました。

  • 業務に区切りをつけ、引き継ぎ対象の業務を減らせた。
  • 余裕を持って関係者との調整を進め、引き継ぎ対象の業務と後任者を決められた。

移行期間を設ける

引き継ぎ対象の業務として私が出席している定例ミーティングをリストアップしました。

育休取得の1か月ほど前から後任者を定例ミーティングに招待し、出席してもらいました。

移行期間を設けることで、後任者の疑問点を育休前に解決できました。

Be Open

博報堂テクノロジーズが設けている7つの行動指針のうちのひとつに「Be Open」があります。

オープンなコミュニケーションの力を信じよう

内外にオープンに情報発信・意見交換を行う事で、スピードを高め、仕事をスケールさせていきます。

「Be Open」を体現するため、普段から3つの点に注意しています。

  • Slackではオープンなチャンネルでコミュニケーションする。
  • Notionに試行錯誤の記録を残す。
  • 日次や月次で業務の進捗をまとめ、ミーティングで共有する。

引き継ぎの際に課題となるのが前任者と後任者の持つ情報の差です。前任者だけが持つ情報があると、後任者の業務に支障があります。

「Be Open」を体現することで情報の差をなくすことができました。

結果

復帰後に引き継ぎで困ったことを後任者に訊きました。情報の差がないため、ほとんど困ったことはなかったのですが、しいていえば2つの課題がありました。

  • サービスリライアビリティ部のマンパワーが1人分不足した。
  • 情報を探すのに時間がかかった。

これらの課題をクラスタに対応させると、この表のようになります。

クラスタサービスリライアビリティ部
ノード1つ分の処理能力が減少サービスリライアビリティ部のマンパワーが1人分不足
ノードのキャッシュにヒットしないためストレージの読み出しに時間がかかる情報を探すのに時間がかかる

通常よりノード数を減らした状態でクラスタを動かす運用のため、処理能力の減少や処理の遅延が発生することは避けられません。課題はありつつも処理はできたことから「組織(博報堂テクノロジーズ)がシステム(サービスリライアビリティ部)において適切なレベルの信頼性を持続的に達成する」という目的は達成できたと考えています。

まとめ

この記事では育児休暇の取得における業務の引き継ぎで気をつけた3点を紹介しました。

  • 早めに準備する
  • 移行期間を設ける
  • Be Open

読者の皆様が、ご自分の組織において「組織がシステム、サービス、製品において適切なレベルの信頼性を持続的に達成」する取り組みの一助になれば幸いです。

提唱

もしこの記事が役に立ったなら、この記事を書いたこと自体が「組織がシステム、サービス、製品において適切なレベルの信頼性を持続的に達成できるよう支援」したことになります。つまりSREについて語ること自体がSREの実践だといえそうです。

書籍『SREをはじめよう ― 個人と組織による信頼性獲得への第一歩』 4章 「SREについて語る(SREの提唱)」から引用します。

SREとは何か、そしてなぜそれが重要なのかを周りの人に説明しなければならない時が必ず来ます。その時点は必ず、あなたが予想するよりもずっと早くやってきます。

企業におけるSREの存続は、その提唱の強さにかかっていると言っても過言ではないと思います。

「SREの提唱」についても、今後ブログで詳しく取り上げていきたいと思います。