運用設計指針#
本システムの運用における監視・障害対応・ログ管理の方針を定義する。
関連ドキュメント#
監視対象#
| 対象 | 監視内容 | ツール |
|---|
| バックエンド (Lambda) | エラー率、レイテンシ、タイムアウト | CloudWatch Metrics |
| S3 | アップロード成功率、4xx/5xxエラー | CloudWatch Metrics |
| DB (RDS) | 接続数、クエリレイテンシ、ストレージ使用量 | CloudWatch Metrics |
| ログ | エラーログの検出 | CloudWatch Logs Insights |
アラート基準(目安)#
| 条件 | 閾値 | 対応 |
|---|
| バックエンドエラー率 | 1% 超 | 即時調査 |
| アップロード成功率 | 99% 未満 | 即時調査 |
| Lambda タイムアウト | 連続3回以上 | 即時調査 |
障害対応#
調査手順#
- CloudWatch Logs Insights で
trace_id をキーに横断検索する。 - 特定の操作に問題がある場合は
request_id で絞り込んで検索する。 - フロントエンド → バックエンド → S3 → DB の順にログを追跡する。
- エラー発生箇所を特定し、原因を切り分ける。
ログ検索クエリ例#
セッション全体の調査(trace_id)#
fields @timestamp, @message, request_id
| filter trace_id = "<対象のtrace_id>"
| sort @timestamp asc
特定操作の調査(request_id)#
fields @timestamp, @message, level
| filter request_id = "<対象のrequest_id>"
| sort @timestamp asc
エラー発生時の調査#
fields @timestamp, @message, level, error_code
| filter trace_id = "<対象のtrace_id>" and level = "ERROR"
| sort @timestamp desc
バックアップ・リカバリ#
| 対象 | 方針 |
|---|
| RDS | 自動バックアップ(保持期間: 7日) |
| S3 | バージョニング有効化(誤削除対策) |
デプロイ#
- GitHub Actions による CI/CD で
main ブランチへのマージをトリガーに自動デプロイする。 - デプロイ前にAPIテスト・E2Eテストが通過していることを必須とする。
- ロールバックは直前の Lambda バージョンへの切り戻しで対応する。