すべてのプロダクト
Search
ドキュメントセンター

Managed Service for Prometheus:ECS インスタンスの監視

最終更新日:Dec 27, 2024

Alibaba Cloud Managed Service for Prometheus を使用すると、Node Exporter を使用して Linux または Windows を実行する Elastic Compute Service (ECS) インスタンスからメトリクスを収集し、Process Exporter を使用してプロセスの監視データを収集できます。テキストファイルで設定されたカスタムメトリクスを収集することもできます。

前提条件

メリット

Managed Service for Prometheus は、ECS インスタンスのための効率的で管理しやすい監視ソリューションを提供します。このソリューションは、最新のクラウドコンピューティング環境における可観測性と自動管理のニーズを満たします。

Managed Service for Prometheus が提供するホスト監視ソリューションを使用すると、ECS インスタンス、自己管理データセンター内のサーバー、およびサードパーティクラウドサービスプロバイダーのサーバーを Managed Service for Prometheus に統合して監視できます。ホスト監視機能は、さまざまな種類のオープンソースエクスポーターを自動的にインストールし、ECS インスタンスのコレクション設定を発行できます。Managed Prometheus エージェントは、自動データ収集に使用できます。収集されたデータは一元的に保存および表示され、アラートルールが管理されます。自動サービス検出メカニズムは、サードパーティホストには適用されません。サードパーティホストを使用する場合は、サードパーティホストを Managed Service for Prometheus に統合する際に、Alibaba Cloud データ収集エージェントを手動でインストールする必要があります。これにより、監視データを Managed Service for Prometheus に送信して保存できます。

メリット

説明

数秒でのホスト検出

  • 適応性: 自動サービス検出メカニズムにより、監視システムはクラウド リソースの変更に迅速に適応できます。これにより、すべての実行中のインスタンスがタイムリーに監視されます。

  • 多様性: さまざまなシナリオでの監視ニーズを満たすために、複数のサービス検出方法がサポートされています。たとえば、Kubernetes クラスター内のサービスの自動検出や、他の種類のクラウドサービスの統合がサポートされています。

数秒でのエクスポーターのインストール

  • すぐに使用可能: エクスポーターは自動的にインストールできます。これにより、監視システムは、新しく起動されたコンピューティングノードをすぐに識別し、手動操作なしでコンピューティングノードのメトリクスを収集できます。

  • 包括的な監視: Node Exporter、Process Exporter、GPU Exporter、ミドルウェア用エクスポーターなど、複数のエクスポーターが包括的なパフォーマンストラッキングのために提供されています。

数秒でのメトリクス収集

  • 簡素化された設定: 自動設定生成機能により、O&M エンジニアは手動設定から解放され、すべてのノードとサービスのメトリクスが正確に収集されます。

  • 柔軟性: 複雑で変化する監視環境に対応するために、監視要件に基づいて設定を変更できます。

ECS インスタンスを作成すると、ECS インスタンスは 30 ~ 60 秒以内に監視システムに含めることができます。ECS インスタンスのすべてのメトリクスが監視される間隔は、1 ~ 60 秒の間で柔軟に調整できます。これにより、数秒以内に ECS インスタンスの全方位監視を実現できます。

サーバーレスエージェント

  • 一元管理: Managed Prometheus エージェントは、データ収集を一元管理するために使用されます。これにより、監視アーキテクチャが簡素化され、O&M 効率が向上します。データ収集中、ビジネスは影響を受けません。

  • 高性能: Prometheus エージェントを使用すると、複雑な監視アルゴリズムを設定する必要がなくなります。これにより、無効な設定の可能性が減り、データ監視の精度と適時性が向上します。

スマートメトリクスタグ

  • ECS インスタンスのタグ、リソースグループ、リージョンは自動的に抽出され、メトリクスシステム全体に挿入されます。

  • ビジネス タグ、環境タグ、データソースタグなどのカスタムタグを ECS インスタンスに追加できます。これにより、タグ管理の柔軟性が向上します。

超大規模データ収集とストレージ

  • 専用および共有 ECS インスタンスを含む複数の ECS インスタンスを一度に統合できます。ホストされているリソースは、統合する ECS インスタンスの数に基づいて動的に調整できます。これにより、統合の適時性と精度が保証されます。

  • 超大規模メトリクスストレージと高性能クエリおよび表示がサポートされています

アップストリームおよびダウンストリームアプリケーションからの包括的な監視データ

  • 体系的で包括的な可観測性を実現するには、さまざまな次元からの監視データを統合し、エンドツーエンドの監視を実装する必要があります。これにより、監視システムはアプリケーションとサービスエコシステム全体のヘルスステータスとパフォーマンスを反映できます。

  • Managed Service for Prometheus が提供する監視ソリューションには、基盤となるハードウェア、アプリケーション、およびリモートダイレクトメモリアクセス (RDMA) ネットワーク、オブジェクトストレージサービス (OSS) バケット、Redis などの外部サービスをカバーする監視ポリシーが含まれています。この監視ソリューションは、ホスト、ネットワーク、および依存関係に適用されます。

プロセスレベルの監視

  • プロセスレベルの監視により、オペレーティングシステムで実行中のプロセスを追跡および分析できます。これにより、プロセスのパフォーマンスとリソース使用率を理解できます。プロセスレベルの監視は、システムレベルの監視の実装において重要な役割を果たし、サーバー上で実行されるアプリケーションのヘルスステータスとパフォーマンスを視覚化するために設計されています。

  • プロセスレベルの監視中に、プロセスの CPU 使用率、メモリ使用量、ディスクの読み取りと書き込みなどの主要なパフォーマンスメトリクスがキャプチャされます。プロセスの起動時間、開いているファイルハンドルの数、プロセスで開始されたスレッドの数などの他の情報も収集されます。即時フィードバックのために、ほぼリアルタイムの監視機能が提供されています。これにより、システム管理者は問題をできるだけ早く特定して解決できます。

  • プロセスレベルの監視は、管理者に多様な障害診断方法を提供します。メモリリークやリソース競合の問題が発生しているプロセス、CPU 使用率やリソース消費量が高いプロセスなど、システムパフォーマンスの低下や障害の原因となっているプロセスを特定するのに役立ちます。

Grafana ダッシュボード

  • デフォルトでは、Managed Service for Prometheus は、ECS 概要ダッシュボード、ECS 詳細ダッシュボード、GPU 概要ダッシュボード、GPU 詳細ダッシュボード、ノードプロセスダッシュボードなどの Grafana ダッシュボードと統合されています。

  • ECS インスタンスは、数回クリックするだけで Managed Service for Prometheus に統合して監視でき、監視機能をすぐに使用できます。

ステップ 1: ECS インスタンスを統合する

  1. 左側のナビゲーションペインで、統合センター をクリックします。

  2. 統合センター ページの左側のナビゲーションペインで、インフラストラクチャ をクリックし、次に ホストモニター をクリックします。

    image

    説明
    • Managed Service for Prometheus は、Resource Center に依存して、現在の Alibaba Cloud アカウント内の仮想プライベートクラウド (VPC) や ECS インスタンスなどのリソースのデータを取得します。Resource Center をアクティブ化していない場合は、プロンプトが表示されたらアクティブ化する必要があります。詳細については、Resource Center のアクティブ化 を参照してください。

    • Resource Center のアクティブ化は非同期操作です。ARMS コンソールに Resource Center がまだアクティブ化されていないというプロンプトが引き続き表示される場合は、10 ~ 20 秒待ってから、再検出 をもう一度クリックしてください。

  3. 表示されるパネルで、VPC を選択し、設定情報 セクションでパラメーターを指定します。次の表にパラメーターを示します。

    image

    パラメーター

    説明

    Nodeexporter インストールモード

    • 自動インストール (推奨): Managed Service for Prometheus は、選択した ECS インスタンスに Node Exporter を自動的にインストールします。

    • セルフインストール: Node Exporter を手動でインストールする必要があります。

    ホストサービス検出モード

    • ステインラベル選択: ブラックリストモード。Managed Service for Prometheus に統合したくない ECS インスタンスを指定します。一致しない ECS インスタンスのデータが収集されます。

    • 無条件: VPC 内のすべての ECS インスタンスからメトリクスを収集します。

    • タグラベル選択: ホワイトリストモード。Managed Service for Prometheus に統合したい ECS インスタンスを指定します。一致しない ECS インスタンスのデータは収集されません。

    • IP CIDR: CIDR ブロックを指定します。ECS インスタンスの IP アドレスが一致する場合、インスタンスのデータが収集されます。VPC の CIDR ブロックを指定すると、現在の VPC 内のすべての ECS インスタンスのデータが収集されます。

    • インスタンス ID: 統合したい ECS インスタンスの ID を指定します。複数のインスタンス ID はコンマ (,) で区切ります。

    ECS ステインラベル

    各テイントはキーと値で構成されます。複数のテイントを設定できます。

    Textfile を収集する

    メトリクスを収集するテキストファイルを指定します。

    プロセスステータスメトリクスを収集する

    デフォルトでは、各 ECS インスタンスのプロセスデータが収集されます。

    Node-exporter サービスポート

    デフォルト値: 9100。

    メトリクススクレイピング間隔 (単位/秒)

    データが収集される間隔。単位: 秒。デフォルト値: 15。

    セキュリティグループは自動的に設定されます

    デフォルトでは、スイッチがオンになっています。

  4. OK をクリックします。ECS インスタンスメトリクスが統合されるまで約 1 ~ 2 分待ちます。

説明

統合が完了した後、ダッシュボードにデータが表示されない場合は、ECS インスタンスのセキュリティグループで、100.64.0.0/10 および 192.168.0.0/18 CIDR ブロックからの 9100 および 9256 ポートへのインバウンドアクセスが許可されていることを確認してください。詳細については、セキュリティグループの検索 を参照してください。9100 は各 Node Exporter のデフォルトポートであり、9256 は各 Process Exporter のデフォルトポートです。ニーズに応じて特定のポートを調整できます。

ステップ 2: ダッシュボードを表示する

  1. 左側のナビゲーションペインで、統合管理 をクリックします。

  2. 統合管理 ページの 統合環境 タブで、ECS インスタンス をクリックします。

  3. ECS インスタンス タブで、環境インスタンスの名前をクリックします。

  4. コンポーネント管理 タブの アドオンタイプ セクションで、ダッシュボード をクリックして、組み込みの Grafana ダッシュボードを表示します。

ステップ 3: アラートを設定する

  1. 左側のナビゲーションペインで、統合管理 をクリックします。

  2. 統合管理 ページの 統合環境 タブで、ECS インスタンス をクリックします。

  3. ECS インスタンス タブで、環境インスタンスの名前をクリックします。

  4. コンポーネント管理 タブの アドオンタイプ セクションで、アラートルール をクリックして、組み込みのアラートルールを表示します。

説明
  • 組み込みのアラートルールは、アラート通知を送信せずにアラートイベントを生成します。メールまたは他のチャネルを使用してアラート通知を送信する場合は、編集 をクリックして通知方法を設定します。「Prometheus アラートルールの編集」ページで、カスタムアラートしきい値、期間、アラートコンテンツを指定できます。詳細については、Prometheus インスタンスのアラートルールを作成する を参照してください。

  • アラート通知パラメーターをシンプルモードに設定すると、アラート通知を受信する連絡先と通知期間を設定し、アラート通知を繰り返し送信するかどうかを指定できます。

image