運用設計指針#

概要#

本システムの運用における監視・障害対応・ログ管理の方針を定義する。

関連ドキュメント#

監視#

監視対象#

対象	監視内容	ツール
バックエンド (Lambda)	エラー率、レイテンシ、タイムアウト	CloudWatch Metrics
S3	アップロード成功率、4xx/5xxエラー	CloudWatch Metrics
DB (RDS)	接続数、クエリレイテンシ、ストレージ使用量	CloudWatch Metrics
ログ	エラーログの検出	CloudWatch Logs Insights

アラート基準（目安）#

条件	閾値	対応
バックエンドエラー率	1% 超	即時調査
アップロード成功率	99% 未満	即時調査
Lambda タイムアウト	連続3回以上	即時調査

障害対応#

調査手順#

CloudWatch Logs Insights で trace_id をキーに横断検索する。
特定の操作に問題がある場合は request_id で絞り込んで検索する。
フロントエンド → バックエンド → S3 → DB の順にログを追跡する。
エラー発生箇所を特定し、原因を切り分ける。

ログ検索クエリ例#

セッション全体の調査（trace_id）#

fields @timestamp, @message, request_id
| filter trace_id = "<対象のtrace_id>"
| sort @timestamp asc

特定操作の調査（request_id）#

fields @timestamp, @message, level
| filter request_id = "<対象のrequest_id>"
| sort @timestamp asc

エラー発生時の調査#

fields @timestamp, @message, level, error_code
| filter trace_id = "<対象のtrace_id>" and level = "ERROR"
| sort @timestamp desc

バックアップ・リカバリ#

対象	方針
RDS	自動バックアップ（保持期間: 7日）
S3	バージョニング有効化（誤削除対策）

デプロイ#

GitHub Actions による CI/CD で main ブランチへのマージをトリガーに自動デプロイする。
デプロイ前にAPIテスト・E2Eテストが通過していることを必須とする。
ロールバックは直前の Lambda バージョンへの切り戻しで対応する。