BtoEでのSLOをどう考えるか

こんにちは、マネジメントセンター サービスリライアビリティ部の永尾です。

今期よりプロダクト開発センターからマネジメントセンターのサービスリライアビリティ部となりました!

より一層、博報堂テクノロジーズ全体へのSRE文化の浸透を行っていきたいと考えています。

さて昨今、様々なテック企業でSREが組織化されてきている一方で、BtoE向けのサービスにおいてはSRE文化は過剰ではないかという課題が存在していると思います。

BtoC、BtoB向けサービスであれば、ユーザー信頼性が新規契約数や離脱率へ影響を与えるため、重点的にコストを掛けられるかもしれません。

しかし、BtoE向けサービスではどうでしょうか?

例えば勤怠管理の基幹システムで考えてみましょう。

導入された企業のユーザーは必ず使うことが前提となっている場合が多く、少なからず動作が遅くてもユーザーが離脱したりすることはほとんどありません。

そのため、ユーザー信頼性の測定にかかるSaaSコストや人件費などへの投資に抵抗感があり、BtoEにSREがまだまだ浸透していないのではないか?と考えています。

これを逆に考えると、BtoEはSREにとってブルーオーシャンかもしれない!と思っています。

上記の例の勤怠管理システムで考えると、求められる要件として動作速度よりもデータの正確性・完全性がより重視される傾向にあります。

では、BtoEであってもユーザーが離脱してしまう許容できないラインはどこでしょうか。

  • どのくらい動作が遅いとユーザーが許容できないのか
  • どのくらいエラーが発生するとユーザーが許容できないのか
  • どのくらいデータの齟齬があるとユーザーが許容できないのか

これらを実際にSLIとして測定し、SLOとして運用ができれば、具体的な数値をもとにどこまでコストをかけるかが見えてきます。

感覚的に過剰な投資だ!ということを判断するのではなく、SLI、SLOによって数値化されたものをベースに過不足の議論や決議が可能なのではないかという話です。

当然、その測定に掛かるコストは発生しますが、既に感覚的に過剰な投資であるものは測定しても過剰となる可能性が高いと思います。

過剰であればそのSLOの適切なラインまでインフラを縮小したり、保守運用にかける工数を削減したりと、結果的にコスト削減につながります。

既に適切な数値なのであれば、納得感を持って投資できる状態になるかもしれません。

大前提として、適切なSLI、SLOが設定されていることが条件にはなりますが、これはBtoEだろうがBtoCだろうが変わりません。

ROIについて多く言及しましたが、SREの業務価値は、コスト面以外でもエンジニア組織内においては「あった方が良い」という共通認識として理解されつつあると感じています。

この定性的な理解を、従業員の生産性や業務効率の向上などの観点から定量的な指標として評価できるようにすることが、BtoEサービスにおけるSREの重要な課題なのかもしれません。

一部BtoCサービスもありますが、BtoEサービスが多い弊社においては、その考え方を胸に今後もSRE文化の浸透に努めていきたいと思います。