Datadogを使ったプロセス、サービス監視の設定手順

2021-01-112023-04-22Azure,Datadog,Others

Datadogを利用したプロセスやサービスの監視設定手順です。

仮想マシン(Azure VM)にDatadog Agentをインストールして、プロセスやサービスのステータスを監視することができます。
仮想マシンだけでなく、さまざまなパブリッククラウドやオンプレミス環境のリソースも監視することができます。

今回は、Datadogを使ったLinuxのプロセス監視およびWindows Serverのサービス監視設定手順を確認しています。

- Datadog Agentで監視対象のプロセスやサービスを設定
- Datadog Monitorsでアラートルールを作成・監視

※本記事では、Azure Virtual Machines(Azure VM)を仮想マシンとして表記しています。
※Windows Server 2022を利用して確認しています。
※Linuxには、CentOS 7を利用して確認しています。

1. Datadogを使ったLinuxのプロセス監視方法
2. Datadog Agent使ったWindows Serverのサービス監視方法
3. 最後に

Datadogを使ったLinuxのプロセス監視方法

プロセスやサービスの状態取得方法は2種類

Datadogでプロセスやサービス情報を取得する方法には、プロセスとライブプロセス(Live Process)の2つがあります。
今回は、プロセスを使用した手順を紹介しています。

ライブプロセス(Live Process)を利用した手順については、こちらで紹介しています。

Datadogのライブプロセス(Live Process)を使った監視設定手順纏め

Datadogのライブプロセス(Live Process)を利用したプロセス(サービス)の表示から監視設定までの手順で ...

https://www.tama-negi.com/2023/04/22/datadog-live-process/

Datadog Agentをインストール

OSにDatadog Agentをインストールします。
インストール手順については、こちらで紹介しています。

Windows ServerやLinuxへのDatadog Agentのインストール手順

Datadog Agentのインストール手順をです。Windows ServerやLinuxを対象に、Datadog Agentのインストー ...

https://www.tama-negi.com/2020/09/06/data-dog-azure-vm/

conf.yamlを新規作成してprocess.dを設定

conf.yaml に取得するプロセスの情報を記載します。
監視したいプロセスごとに個別に指定します。

プロセス(Datadog公式)

ファイルの作成場所は、/etc/datadog-agent/conf.d/process.d/conf.yaml です。
今回は、chrony(chronyd)を監視します。

conf.yaml作成

conf.yamlを新規作成します。

[root@test-vm-01 ~]# vi /etc/datadog-agent/conf.d/process.d/conf.yaml

nameでプロセス名を定義します。
search_stringに検索対象となるプロセスの文字列を設定します。

init_config:

instances:
– name: chronyd
search_string: ['chrony’,’chronyd’]

Datadog Agentを再起動します。

[root@test-vm-01 ~]# systemctl restart datadog-agent

Processのステータスを確認

Datadog AgentでProcessのステータスを確認します。

ステータス確認

Datadog Agentのステータスを表示します。
processのステータスがOKになっていることが確認できます。
conf.yaml が正しく読み込まれていることも確認できます。

[root@test-vm-01 ~]# datadog-agent status

プロセスを監視するアラートルールを作成

Datadog Monitorsでアラートルールを作成します。
Datadog Agentで設定したchrony(chronyd)のプロセスを監視します。

アラートルールを作成
MonitorsでProcess Checkを選択します。
Pick a Process で監視対象のプロセスを選択します。設定したchronydを選択します。 Pick monitor scopeで監視対象の仮想マシンを選択します。今回は、test-vm-01 を選択しています。
Set alert conditionsでアラートの基準を選択します。 Warningのアラートは 3、Criticalは 5、OK (回復))は 3 を選択しています。これらは、連続失敗回数や連続成功回数の指定となります。アラートの条件を設定する ※監視対象が複数台にわたる場合は、alert for eachにHostを選択します。ホスト単位での検知となります。
Notify your team で通知方法を指定します。タイトル部分がアラートルール名になります。今回は、chronyd Process Check Ng {{host.name}}としています。 ※{{host.name}} とすることで、アラート発生時にホスト名を表示することができます。
Createでアラートルールを作成します。

作成したアラートルールを確認

作成したアラートルールを確認します。

アラートルールを確認
Managed Monitor には、アラートルールの一覧とそれぞれのステータスが表示されます。作成したアラートルールも確認できます。
選択して、アラートルールの詳細を表示します。ステータスの状態(履歴)も表示されます。 OKとなっており、プロセスのステータスが取得できていることが確認できます。

プロセス停止してアラートの発生を確認

監視対象のプロセス(chronyd(デーモン))を停止して、アラートが発生することを確認します。

アラートの発生を確認

chronydのプロセスを停止します。

[root@test-vm-01 ~]# systemctl stop chronyd

しばらくすると、アラートルールのステータスがALERTになります。
Status & History でもAlertとなっていることが確認できます。

chronydのプロセスを起動します。

[root@test-vm-01 ~]# systemctl start chronyd

アラートルールのステータスがOKになります。
Status & History でもOKとなっており、ALERT 状態から回復していることが確認できます。

Eventsでアラートの履歴を確認します。
[Triggered]と[Recovered]の履歴が確認できました。

※一部の画面は、別のアラート発生時のものを使用しています。

Datadogを使用したリソース監視の手順については、こちらで紹介しています。
アラート発生時のメール通知設定の手順は、こちらで紹介しています。

Datadogを使った仮想マシンのメトリクスや死活監視設定手順

Datadogを使った仮想マシン(Azure VM)の監視設定手順です。死活監視やCPU使用率、メモリ使用率、ディス ...

https://www.tama-negi.com/2020/09/12/datadog-agent-azurevm-r...

—広告—

Datadog Agent使ったWindows Serverのサービス監視方法

Windows Server に Datadog Agent をインストールします。
インストール手順については、こちらで紹介しています。

Windows ServerやLinuxへのDatadog Agentのインストール手順

Datadog Agentのインストール手順をです。Windows ServerやLinuxを対象に、Datadog Agentのインストー ...

https://www.tama-negi.com/2020/09/06/data-dog-azure-vm/

conf.yamlを新規作成してservicesを設定

サービス監視用の conf.yaml を作成します。
Datadog公式サイトを参考に設定を進めます。

Windows Service(Datadog公式)

サービス名は、PowerShell の Get-Service コマンドレットで確認できます。
今回は W32Time (Windows Time) を監視対象とします。

今回はDatadog Agent Managerを利用してファイル編集をしています。
ファイルを直接操作する場合は、以下のパスに新規ファイル(conf.yaml)を新規作成します。

ファイル作成場所(例)
C:\ProgramData\Datadog\conf.d\windows_service.d\conf.yaml

conf.yamlを新規作成

conf.yamlを新規作成します。

Datadog Agent ManagerのChecksを選択します。
Manage Checksで conf.yaml を作成・編集できます。
Add a Checkでファイルを追加します。
作成するディレクトリ(windows_service)内のservicesでサービス名を定義します。

設定後、Datadog Agent を再起動します。

instances:
– services
– W32Time

Datadog Agent ManagerでStatus を選択します。
Collectorで取得状況を確認できます。

コマンドプロンプトでDatadog Agentを再起動

コマンドプロンプトで Datadog Agent を再起動する場合は、restart-serviceとします。

C:\> cd “C:\Program Files\Datadog\Datadog Agent\embedded"
C:\Program Files\Datadog\Datadog Agent\embedded> agent.exe restart-service

Datadog Agentのステータスを確認する場合は、statusとします。

C:\Program Files\Datadog\Datadog Agent\embedded> agent.exe status

アラートルールを作成

Datadog Monitorsでアラートルールを作成します。
Datadog Agentで設定した W32Time(Windows Time)を監視します。

アラートルールを作成
MonitorsでService Checkを選択します。
Pick a Service Checkでは windows_service.state を選択します。 Pick monitor scopeで監視対象のサービス名を選択します。 ※監視対象のホストを限定する場合は、Pick monitor scopeにホスト名を設定します。
Set alert conditionsでアラートの基準を選択します。 Warning のアラートは3、Criticalは5、OK(回復)は3を選択しています。連続失敗回数や連続成功回数の指定になります。アラートの条件を設定する ※監視対象が複数台に渡る場合は、alert for eachで Host を選択します。ホスト単位での検知になります。
Notify your teamで通知方法を指定します。タイトル部分がアラートルール名になります。今回は、Windows Time Ng Service {{host.name}}としています。 ※{{host.name}} とすることで、アラート発生時にホスト名を表示することができます。
Createでアラートルールを作成します。

作成したアラートルール確認

作成したアラートルールを確認します。

アラートルールを確認
Managed Monitor には、アラートルールの一覧とそれぞれのステータスが表示されます。作成したアラートルールも確認できます。
選択して、アラートルールの詳細を表示します。ステータスの状態(履歴)も表示されます。 OKとなっており、サービスのステータスが取得できていることが確認できます。

サービスを停止してアラートの発生を確認

監視対象のサービスを停止して、アラートが発生することを確認します。

アラート確認
W32Time(Windows Time)のサービスを停止します。
しばらくすると、アラートルールのステータスがALERTになります。 Status & HistoryでもAlertとなっていることが確認できます。
W32Time(Windows Time)のサービスを起動します。
アラートルールのステータスがOKに戻ります。 Status & HistoryでもOKとなっており、ALERT状態から回復していることが確認できます。
Eventsでアラートの履歴を確認します。 [Triggered]と[Recovered]の履歴が確認できました。