「監視を設定してあるので、異常があればすぐわかります」「監視アラートが飛んできた」という言葉、IT運用の現場でよく使われます。
監視はシステムが安定して動き続けるための要の仕組みです。この記事では、監視とは何か・何を見ているのかを整理します。
この記事でわかること
- システム監視とは何か
- 何を監視しているのか(監視対象)
- アラートとは何か
- 監視がないとどんな問題が起きるか
システム監視とは?
システム監視とは、稼働中のシステムが正常に動いているかを継続的に確認し、異常を素早く検知する仕組みです。
「サーバーが落ちていないか」「処理が遅くなっていないか」「エラーが頻発していないか」をリアルタイムで確認します。問題を検知したら担当者に通知(アラート)を送ります。
身近な例で考えると
自動車の「警告灯」を思い浮かべてください。
走行中にガソリンが少なくなると「ガス欠ランプ」が点灯します。エンジンに異常があれば「エンジン警告灯」が光ります。これは「問題が起きてから気づく」のではなく、「問題が起きる前・起きた直後に知らせる」仕組みです。
病院の生体モニタリングにも似ています。入院患者の心拍・血圧・血中酸素濃度をリアルタイムで計測し、異常値になると看護師の端末にアラームが届きます。
システム監視も同じ考え方です。「ユーザーから「つながらない」と連絡が来てから気づく」のではなく、「問題が起きた瞬間または起きる前に担当者が気づける」状態を目指します。
主な監視対象
サーバーリソース
CPU使用率・メモリ使用量・ディスク使用量・ネットワーク転送量などを計測します。「CPUが90%を超えたらアラート」という閾値を設定します。
サービスの死活監視(ping監視)
「このサービスが動いているか」を定期的に確認します。一定時間応答がなければアラートを送ります。
レスポンス時間
Webページのロード時間やAPIの応答時間を計測します。「応答が3秒を超えたらアラート」といった設定をします。
エラー発生数
一定時間内にエラーが何件発生したかを監視します。エラーが急増したら何か問題が起きているサインです。
証明書の有効期限
HTTPSに使うSSL証明書の有効期限を監視し、期限切れ前に更新を促すアラートを送ります。
アラートとは
アラートとは、監視で異常を検知したときに担当者に送る通知です。
メール・Slack・PagerDuty(オンコール管理ツール)など、さまざまな手段で通知されます。「このアラートが来たら何をすべきか」のルール(runbook・手順書)をあわせて整備しておくことが重要です。
アラートが多すぎると「アラート疲れ」(Wolf Cry問題)が発生し、本当に重要なアラートを見逃すリスクがあります。「何に対してアラートを出すか」の設計が重要です。
IT現場ではどう使われるか
運用チームの日常業務
朝番・夜番など、当番制でアラートを受け取って対応する体制が多くのシステムで組まれています。
SLA(Service Level Agreement)の維持
「稼働率99.9%以上」という契約がある場合、それを達成するための監視・障害対応体制が必要です。
PMや非エンジニアの関わり方
PMとして関わる場面では「このシステムの監視は誰が担当するか」「障害時の連絡先はどこか」「何時間以内に対応する約束になっているか」を確認・管理することが重要です。
受託開発の場合、リリース後の監視・運用体制がクライアントとの契約に含まれているかどうかも確認が必要です。
初心者がつまずきやすいポイント
「監視を設定した=問題が起きない」と思いがち
監視は「問題に素早く気づく」ための仕組みです。問題を防ぐわけではありません。気づいた後の対応体制も合わせて整備することが必要です。
監視はエンジニアだけの話だと思いがち
監視の設定・運用はエンジニアが行いますが、「何を監視すべきか」「アラートが来たときの対応フローはどうするか」はPMや業務担当者も関わる判断です。
全部を監視すればよいと思いがち
監視項目が多すぎると管理が大変になり、重要なアラートが埋もれます。「何を優先して監視するか」を絞ることが実際的です。
関連用語
- 稼働率(Availability):システムが正常に動いている時間の割合。99.9%稼働なら年間約8.8時間のダウンタイムを許容
- 閾値(しきいち):アラートを発動させる基準値
- ダウンタイム:システムが使えない時間
- SLA:サービスの品質水準に関する合意書(稼働率・応答時間など)
- オブザーバビリティ(可観測性):システムの状態を外から観察できる程度
さらに学ぶなら
監視を含むシステム運用の全体像を体系的に学びたい方には、FEXシリーズのシステム運用入門講座がおすすめです。