Datadogで仮想マシン(Azure VM)のメトリック(リソース)監視
Datadogを使った仮想マシン(Azure VM)のメトリック(リソース)監視をやってみました。
仮想マシン(Azure VM)のリソース監視をDatadog で行う場合は以下の2つの方法があります。
-
-
- DatadogとAzureテナントを接続しAzureのメトリック情報を利用する
- 仮想マシン(Azure VM)インストールしたDatadog Agentでメトリック情報を取得する
-
今回はDatadogを使った仮想マシン(Azure VM)を監視設定手順を確認してみました。
仮想マシン(Azure VM)の死活監視やCPU使用率を例にメトリック監視設定の手順を纏めています。
仮想マシン(Azure VM)へのDatadog Agentインストール手順はこちらに纏めています。
仮想マシン(Azure VM)の死活監視
アラートルール作成
仮想マシン(Azure VM)の死活監視を行います。
Datadog Agentからの通信が止まった場合に検知します。
-
- 監視設定で行う設定項目
- Pick hosts by name or tag:対象のホスト(例;しきい値監視)
- Set alert conditions:しきい値(例;監視間隔などのアラート発生条件)
- Notify your team:通知方法や内容(例;Mail通知や本文)
- Define permissions and audit notifications:アラートルールの編集権限や編集時の通知
- 監視設定で行う設定項目
テストメール送信
アラートルール作成時にTest Notificationを選択するとテストアラートメールを送信できます。
アラート発生時に通知される内容や通知先確認出来ます。
テストメール送信 | |
Test Notificationを選択します。 | |
通知内容を選択します。 Run Testでアラート通知されます。 |
|
アラート発生時と回復時のテストメールです。 設定内容通り通知されている事が確認出来ます。 |
|
アラートメール
アラート発生時のメールです。
アラートメール | |
アラート発生時と回復時のアラートメールです。 |
|
自動ミュートに注意
DatadogのIntegrationでAzureテナントと接続した際の設定値に注意が必要です。
Monitor AutomutingでIntegreation Silence monitor for expected Azure VM shutdownsが自動ミュート設定になります。
この項目にチェックが入っている場合Azure側で仮想マシン(Azure VM)を停止した場合アラート通知が来ません。
ダウンタイム(manage downtime)に仮想マシン(Azure VM)が自動登録されてミュート(非通知)になります。
※ダウンタイムが永続になっています。再度起動した場合はダウンタイムから対象ホスト(サーバー)の削除が必要になります。
仮想マシン(Azure VM)のメトリック(リソース)監視
CPU使用率を監視
Datadog Agentで取得出来るメトリクス関連の項目についてはこちらに纏まっています。
こちらを参考にCPU使用率の監視設定を進めます。
設定項目に監視間隔がありません。監視評価期間しかありません。
デフォルト値が決まっています。
監視設定画面が表示されますので設定項目を順番に設定していきます。
-
- 監視設定で行う設定項目
- Choose the detection method:検出方法(例;しきい値監視)
- Define the metric:監視項目や条件(例;CPU使用率)
- Set alert conditions:閾値(例;90%以上でAlert)
- Say what’s happening:通知方法や内容(例;Mail通知や本文)
- Define permissions and audit notifications:アラートルールの編集権限や編集時の通知
- 監視設定で行う設定項目
アラートルール
作成したアラートルールを確認します。
アラートルール確認 | |
作成したアラートルールはMonitorsで確認出来ます。 ステータスも表示されます。 PriorityやTypeでの絞り込みも出来ます。 |
アラートメール
仮想マシン(Azure VM)でCPU使用率のアラートを発生させてメールの受信を確認します。
アラートメール | |
CPU使用率が90%以上になった時点でAlert、80%以上の時点でWarningのメールを受信しています。 また回復時のメールも受信しています。 CPU使用率にも値が表示されています。 |
|
ステータスの変化を確認
アラートルールの詳細を確認出来ます。 |
|
Azureのメトリック値(CPU使用率)を使った設定
Azureテナントと接続しておくと、仮想マシン(Azure VM)のメトリック値も取得出来ます。
仮想マシン(Azure VM)のメトリック値を使った監視設定も出来ます。
DatadogへのAzureテナント登録手順はこちらに纏めています。
注意点があります。
Azureから取得される値を利用する場合は遅延について考慮する必要があります。
メトリック値を指定 | |
項目はクラウド名.リソース種別.メトリック値で表示されます。 ※仮想マシンの分析情報で取得される値ではありません。 |
※CPU使用率のアラートを発生させるとAgent経由の方が早く検知していました。
メモリ使用率監視
CPU使用率だけではなくメモリ使用率も監視出来ます。
直接メモリ使用率に該当する項目がない為、取得された値を組み合わせて計算監視します。
メモリ使用率監視 | |
system.mem.usableが空き容量に該当します。 |
ディスク使用率監視
ディスク使用率も監視出来ます。
デバイス単位で取得された値を利用するようにしています。
ディスク使用率監視 | |
最後に
Datadogのメトリクス監視について仮想マシン(Azure VM)のCPU使用率を例に纏めてみました。
死活監視も含めた設定手順を纏めています。
今回は基本的な設定で実施していますが、取得内容も多種に渡っており細かい設定も可能です。
取得対象のリソースや区分の設定も簡単に出来るので便利かと思います。
アラート発生時にSlack通知やその他のインシデント管理ツールとの連携も出来る為便利かと思います。
監視設定のエクスポートも可能な為コピーして設定を今後も引き続き色々試してみたいと思います。
プロセスやサービス監視設定手順についてはこちらに纏めています。
ライブプロセスを使った監視設定手順についてはこちらに纏めています。