Datadogのライブプロセス(Live Process)を使った監視設定手順纏め

Azure,Datadog,Others

Datadogのライブプロセス(Live Process)を使った監視設定手順です。

Datadogを利用することで、仮想マシン(Azure VM)のOSプロセスやサービスのステータス表示・監視が可能です。
ライブプロセス(Live Process)機能を利用すると、OS上のプロセス状況をほぼリアルタイムで一元的にDatadogで確認できます。
仮想マシンだけでなく、さまざまなパブリッククラウドやオンプレミス環境のリソースも監視することができます。

今回は、ライブプロセス(Live Process)の有効化設定から、Linux(CentOS)のプロセスやWindows Server 2022のサービスのステータス確認、監視設定手順までをまとめています。

    • Datadog Agentでライブプロセス(Live Process)を有効化
    • Datadogでライブプロセス(Live Process)の表示を確認
    • Datadog Monitorsでアラートルールを作成し、監視

※本記事では、Azure Virtual Machines(Azure VM)を仮想マシンとして表記しています。

スポンサーリンク

Datadogのライブプロセス(Live Process)とは

プロセスの状態取得方法は2種類

Datadogでプロセス情報を取得する方法は2つあります。
ライブプロセス(Live Process)とプロセス(Process)機能です。
いずれもほぼリアルタイムでプロセスのステータスを取得することができます。

ライブプロセス(Live Process)では、OS上で実行中のプロセス情報をまとめて確認できます。
Datadog Agentは、すべての実行中プロセス(除外項目を除く)を送信します。
InfrastructureのProcesses画面で一覧表示が可能です。

一方、プロセス(Process)機能では、プロセス単位でステータスを確認します。
Datadog Agent側で監視対象のプロセスを個別に指定して送信します。
特定のプロセスの実行状況を詳細に確認(監視)できます。

プロセス監視の設定手順については、こちらで紹介しています。

プロセス単位でCPU使用率やメモリ使用率を取得可能

Datadogのライブプロセス(Live Process)は、Datadog APMの機能の一つです。
ライブプロセス(Live Process)を使用することで、プロセスごとのCPU使用状況やメモリ使用状況などを取得できます。
取得された情報は、Datadog上でリアルタイムに表示されます。

ライブプロセス(Live Process)にはEnterpriseのライセンスが必要

ライブプロセス(Live Process)の利用には、Enterpriseライセンスが必要です。

料金(Datadog)

—広告—

ライブプロセス(Live Process)を使ったLinuxの仮想マシンのプロセス監視手順

LinuxにはCentOS 7を使用しています。
プロセス監視の対象は、時刻同期サービスであるchrony(chronydデーモン)としています。

Datadog Agentをインストール 

Datadog Agentをインストールします。
インストール手順については、こちらで紹介しています。

ライブプロセス(Live Process)を有効化

ライブプロセス(Live Process)の設定は、datadog.yamlにあります。
ライブプロセス(Live Process)を有効化するには、設定ファイル内の該当項目を修正します。
デフォルトではライブプロセス(Live Process)は無効になっています。

ライブプロセス(Datadog公式)

※ユーザーの実行権限などを確認し、必要に応じてsudoでコマンドを実行してください。

ライブプロセス(Live Process)の有効化

datadog.yaml(/etc/datadog-agent/datadog.yaml)を編集します。
process_configにあるprocess_collectionの設定値をenabled: trueにします。

※設定値はコメントアウトされていま。コメントアウトを外して設定します。

【変更前】

【変更後】

process_config:
 process_collection:
  enabled: true

Datadog Agentを再起動します。

[root@test-vm-01 ~]# systemctl restart datadog-agent

取得されたプロセス情報を表示

ライブプロセス(Live Process)で取得された情報は、InfrastructureのProcessesタブや、各リソースのProcessesセクションで確認できます。

プロセスを確認

InfrastructureのProcessesを確認します。
Datadogで取得されているプロセスやサービスの情報一覧を見ることができます。
プロセスごとのCPU使用率やメモリ使用率も確認できます。

※画面サンプルでは表示するリソースを制限しています。すべてのリソースをまとめて表示、特定のプロセスだけに絞り込んで表示することもできます。

各リソースのProcessesでも確認できます。  

アラートルールを作成

ライブプロセス(Live Process)は監視設定にも利用できます。
今回はサンプルとして、chronydを監視します。

アラートルールを作成
MonitorsでLive Processを選択します。
select processesでは、監視するプロセス名などの文字列を指定します。検索されたプロセスの有無や数による監視が可能です。
Search forにchronydと指定します。

プロセスの数を指定します。
今回は、プロセス数が1を下回った場合にアラートとなるように設定します。

※Warningは設定していません。

Notify your teamでは、アラート名や通知方法を指定します。
今回は、アラート名をchronyd Live Process Check Ng {{host.name}}としています。
本文には、メール通知する場合の通知先や通知内容を指定します。
今回は、TESTとしています。

Createでアラートルールが作成されます。

作成したアラートルールを確認

作成したアラートルールを確認します。

アラートルールを表示
Managed Monitorには、アラートルールの一覧と各アラートルールのステータスが表示されます。
作成したアラートルールも表示されています。
選択すると、アラートルールの詳細が表示されます。
ステータスの状態(履歴)も表示されます。
ステータスがOKとなっています。
プロセスのステータスが取得できていることが確認できます。

chronydのプロセスを停止してアラートの発生を確認

監視対象のプロセス(chronyd(デーモン))を停止し、アラートが発生することを確認します。

アラートの発生を確認
chronydを停止します。

[root@test-vm-01 ~]# systemctl stop chronyd

しばらくすると、アラートルールのステータスがALERTになります。Status & HistoryでもAlertとなっていることが確認できます。
chronydを起動します。

[root@test-vm-01 ~]# systemctl start chronyd

アラートルールのステータスがOKに戻ります。
Status & HistoryでもOKとなっており、ALERT状態から回復していることが確認できます。

Eventsでアラートの履歴を確認します。
[Triggered]と[Recovered]の履歴が確認できます。

※一部の画面は、別のアラート発生時のものを使用しています。

—広告—

ライブプロセス(Live Process)を使ったWindows Serverのサービス監視手順

確認には、Windows Server 2022を利用しています。
サービス監視の対象は W32Time(Windows Time)としています。

Windows ServerにDatadog Agentをインストール 

Windows ServerにDatadog Agentをインストールします。
インストール手順については、こちらで紹介しています。

ライブプロセス(Live Process)を有効化

ライブプロセスの設定は、datadog.yaml (C:\ProgramData\Datadog\datadog.yaml) にあります。
今回は、Datadog Agent Managerを利用して設定します。
デフォルトでは無効化されているため、有効化します。

ライブプロセス(Datadog公式)

ライブプロセス(Live Process)を有効化

Settingsを使用して、datadog.yaml(/etc/datadog-agent/datadog.yaml)を編集します。
process_config内にあるprocess_collectionの設定値をenabled: true に変更します。

※設定値はコメントアウトされています。コメントアウトを外して設定します。

 

process_config:
 process_collection:
  enabl
ed: true

取得されたサービスの情報を表示

ライブプロセス(Live Process)で取得された情報は、InfrastructureのProcessesや、各リソースのProcessesで確認できます。

サービスの情報を表示

InfrastructureのProcessesを確認します。
Datadogで取得されているプロセスやサービスの情報一覧を参照できます。
サービス単位でのCPU使用率やメモリ使用率も確認できます。

※画面サンプルでは表示リソースを制限しています。すべてのリソースをまとめて表示したり、特定のプロセスだけに絞り込んで表示することもできます。

各リソースのProcessesでも確認できます。

アラートルールを作成

ライブプロセス(Live Process)は監視設定にも利用できます。
今回は、W32Time(Windows Time)を監視します。

アラートルールを作成
MonitorsでLive Processを選択します。
select processesでは、監視するサービス名の文字列を指定します。
検索されたプロセスの有無や数に応じた監視ができます。
Search for にW32Time(Windows Time)を設定します。

プロセスの数を指定します。
今回は、プロセス数が1を下回った場合にアラートとなるように設定します。

※Warningは設定していません。

Notify your teamでは、アラート名や通知方法を指定します。
今回は、アラート名をWindows Time Live Process Check Ng {{host.name}}としています。
本文には、メール通知を行う場合の通知先や通知内容を指定します。
今回は、TESTとしています。

Createでアラートルールを作成します。

作成したアラートルールを確認

作成したアラートルールを確認します。

アラートルールを確認
Managed Monitorには、アラートルールの一覧と各アラートルールのステータスが表示されます。
作成したアラートルールも表示されます。

選択すると、アラートルールの詳細が表示されます。
ステータスの状態(履歴)も表示されます。
ステータスがOKとなっており、プロセスの状態が正常に取得できていることを確認できます。

サービスを停止してアラートの発生を確認

監視対象のサービスを停止し、アラートが発生することを確認します。

アラートの発生を確認
W32Time(Windows Time)のサービスを停止します。
しばらくすると、アラートルールのステータスがALERTに変わります。
Status & HistoryでもAlertとなっていることが確認できます。
W32Time(Windows Time)のサービスを起動します。
アラートルールのステータスがOKになります。
Status & HistoryでもOKとなっており、ALERT状態から回復していることが確認できます。

Eventsでアラートの履歴を確認します。
[Triggered]と[Recovered]の履歴を確認できます。

※一部の画面は、別のアラート発生時のものを使用しています。

—広告—

最後に

今回は、Datadogのライブプロセス (Live Process) の有効化、表示、監視設定の手順について確認しました。
Windows Server、Linuxともに、設定を有効化するだけですぐに利用できました。
非常に簡単に設定でき、複数のサーバーを一元的に管理できるのはとても便利な機能だと思います。

引き続き、Datadogについていろいろなことを試してみたいと思います。

プロセス監視設定手順については、こちらで紹介しています。

仮想マシンのメトリック(リソース)監視設定については、こちらで紹介しています。
メール通知の設定手順についても紹介しています。

DatadogへOSのログを転送する手順については、こちらで紹介しています。

Synthetic Monitoringにあるブラウザテストを使用してWebサイトの健全性を監視する方法については、こちらで紹介しています。

スポンサーリンク