「CREATIVE BLOOM DISPLAY Ads」の監視・モニタリングの仕組み

はじめに

こんにちは！

この記事では、「CREATIVE BLOOM DISPLAY Ads」における監視・モニタリングの仕組みと、実際に得られた成果についてご紹介します。

プロジェクト概要

「CREATIVE BLOOM DISPLAY Ads」は、ディスプレイ広告におけるクリエイティブ制作を支援するプラットフォームです。AIを活用することで各工程の効率を向上させ、出稿前に広告効果を予測し、より効果的な広告へとブラッシュアップを行います。また、クラウドサービスを活用した制作物の一元管理により、効率的な制作フローを実現します。本プロダクトによって、クライアント企業の KPI 実現に向けてより質の高い広告運用を可能にします。

なぜ監視・モニタリングが必要だったのか

私たちのシステムは AWS 環境上に構築されており、標準で CloudWatch などのモニタリングや通知の仕組みが用意されています。

しかし実際には、

不要な通知が大量に飛んでくる
API Gateway などのリソースは、システムの評価指標には含まれていない

といった状況で、チームが必要な情報を即座に得られない問題がありました。

そのため、ログやメトリクスを一元的に監視できる仕組みを整備することが不可欠でした。

アーキテクチャ

「CREATIVE BLOOM DISPLAY Ads」は、典型的な三層アーキテクチャを採用しています。

Frontend (CSR): CloudFront + S3
Backend: API Gateway → NLB → ECS・Lambda・SQS
Database: RDS
Batch/Cron Job: EventBridge → Lambda → Step Functions

クラウドサービスを活用することで、柔軟かつ拡張性のある基盤を実現しました。

監視・モニタリング仕組み

私たちは現在のモニタリング体制を見直し、CloudWatch と Datadog を組み合わせたハイブリッド戦略を採用しています。両者には異なる強みがあるため、役割を明確に分けて活用しています。

CloudWatch

AWS ネイティブの基盤として、RDS、ECS、API Gateway などのメトリクスやログを自動収集。

CloudWatch Alarm を設定し、ECSなどのメトリクスに基づいた異常を検知
Subscription Filter + Lambda によりログを処理し、Slack へアラート通知
Real User Monitoring (RUM) によるユーザー体験の可視化
- ただし不要なエラーが多く通知ノイズとなるため、重要なエラーのみ抽出する仕組みを導入
RDS Performance Insights を有効化し、DB レベルの性能ボトルネックを可視化
- インシデントの早期検知・原因分析を強化

Datadog

サービスレベル監視に強みを持つプラットフォーム。

API Gateway のカスタムログを CloudWatch から転送
ログをメトリクスに変換し、SLI/SLO を定義
Synthetic Test によりユーザー視点のモニタリングを実施
優れたダッシュボードで SREと開発チーム双方がサービス状態を迅速に把握

まとめ

CloudWatch = AWS リソース監視と基盤の健全性把握
Datadog = サービスレベル指標（SLI/SLO）とユーザー体験の可視化

この両輪を組み合わせることで、SRE チームと開発チームはそれぞれの視点からモニタリングを強化し、組織全体として より実効性の高い監視体制 を実現しています。

結果

RUM による不要なエラー通知数の減少により、誰も確認しない「99+件のエラー」が発生する状況は解消された
モニタリングデータに基づき、RDS・ECS などのリソース使用状況を正確に把握し、実際のワークロードに合った適切なスペックを選定できるようになった
SLOについて隔週で共有し、サービス品質を定量的に把握できるようになった

理論的な観点では、Monitoring は単なる「監視」にとどまらず、次のような価値をもたらします：

デプロイや設定変更、インフラ改善の効果を客観的なデータで検証できる
チーム全員が共通の Source of Truth を参照でき、透明性のある文化を育成できる
ボトルネックや改善ポイントを可視化し、具体的なアクションにつなげる

これらの役割を通じて、Monitoring はシステムの健全性維持だけでなく、組織がデータに基づいた意思決定を行うための基盤となっています。

今後の展開

SRE プラクティス

MTTD や MTTR などの信頼性指標を定量的に追跡し、継続的な改善サイクルに組み込む
SLO ダッシュボードをプロダクトごとに整備し、ビジネスインパクトを可視化する

モニタリング

ログ・メトリクス・トレースの統合ビューを構築し、エンドツーエンドの可観測性を強化する
AI 機能の増加に伴い、異常検出やAIモジュールの健全性テストを行う AIOps アーキテクチャの導入を検討する
エラー発生傾向を自動的に集計・ランキング化し、優先度に基づいた効率的なエラー処理プロセスを実現する

これにより、「収集している情報の種類」だけでなく「具体的にどのような改善につながったか」を定量的に示すことができ、SRE/開発チームやビジネス担当者に対してより強いインパクトを与えることができます。

HAKUHODO Technologies SRE Tech Blog