運用設計指針#

概要#

本システムの運用における監視・障害対応・ログ管理の方針を定義する。

関連ドキュメント#

監視#

監視対象#

対象監視内容ツール
バックエンド (Lambda)エラー率、レイテンシ、タイムアウトCloudWatch Metrics
S3アップロード成功率、4xx/5xxエラーCloudWatch Metrics
DB (RDS)接続数、クエリレイテンシ、ストレージ使用量CloudWatch Metrics
ログエラーログの検出CloudWatch Logs Insights

アラート基準(目安)#

条件閾値対応
バックエンドエラー率1% 超即時調査
アップロード成功率99% 未満即時調査
Lambda タイムアウト連続3回以上即時調査

障害対応#

調査手順#

  1. CloudWatch Logs Insights で trace_id をキーに横断検索する。
  2. 特定の操作に問題がある場合は request_id で絞り込んで検索する。
  3. フロントエンド → バックエンド → S3 → DB の順にログを追跡する。
  4. エラー発生箇所を特定し、原因を切り分ける。

ログ検索クエリ例#

セッション全体の調査(trace_id)#

fields @timestamp, @message, request_id
| filter trace_id = "<対象のtrace_id>"
| sort @timestamp asc

特定操作の調査(request_id)#

fields @timestamp, @message, level
| filter request_id = "<対象のrequest_id>"
| sort @timestamp asc

エラー発生時の調査#

fields @timestamp, @message, level, error_code
| filter trace_id = "<対象のtrace_id>" and level = "ERROR"
| sort @timestamp desc

バックアップ・リカバリ#

対象方針
RDS自動バックアップ(保持期間: 7日)
S3バージョニング有効化(誤削除対策)

デプロイ#

  • GitHub Actions による CI/CD で main ブランチへのマージをトリガーに自動デプロイする。
  • デプロイ前にAPIテスト・E2Eテストが通過していることを必須とする。
  • ロールバックは直前の Lambda バージョンへの切り戻しで対応する。