ARMS アプリケーションモニタリングとは - Application Real-Time Monitoring Service

アプリケーションモニタリングは、Application Real-Time Monitoring Service (ARMS) のサブサービスであり、コード変更を伴わず、ご利用のアプリケーションの健全性、パフォーマンス、および依存関係について完全な可視性を提供するアプリケーションパフォーマンス管理 (APM) ソリューションです。

ARMS エージェントをインストールすると、アプリケーションモニタリングが自動的にアプリケーションをトレース可能にし、リアルタイムでトレース情報を収集、ボトルネックを検出、エラーを特定、リクエストパラメーターを復元します。遅延しているデータベースクエリの原因を特定する場合でも、分散型サービス間で失敗したリクエストをトレースする場合でも、アプリケーションモニタリングは問題の診断と迅速な解決に必要なデータを提供します。

仕組み

[ARMS エージェントのインストール] — エージェントは、ご利用のアプリケーションの実行環境においてバイトコードを強化します。ビジネスコードへの変更は一切不要です。
[依存関係の自動検出] — エージェントは、上流・下流のサービス、ミドルウェア（MySQL、Redis、RocketMQ）、およびフレームワーク呼び出し（Spring Cloud、Dubbo）を検出し、アプリケーション全体のトポロジーを構築します。
[メトリックおよびトレースの収集] — HTTP および RPC フレームワークにおけるインターフェイス呼び出し回数、応答時間、エラー、例外が自動的に収集されます。
[分析およびアラート] — トレースビューの確認、遅延クエリの診断、高度なアルゴリズムによる根本原因分析の実行、および 50 以上の事前設定ルールに基づくアラート受信が可能です。

Container Service for Kubernetes (ACK) または Elastic Compute Service (ECS) 上にデプロイされたアプリケーションは、ARMS 統合センターへ自動的にインジェクションされます。手動でのエージェントインストールは不要です。

主な機能

アプリケーショントポロジー

ARMS エージェントは、ご利用のサービス間の接続および相互作用を自動的に検出します。RPC フレームワークおよび HTTP フレームワーク（Spring Cloud、Dubbo など）を用いたアプリケーショントレースをキャプチャし、MySQL、Redis、RocketMQ などの一般的なミドルウェアを含むアプリケーションスタック全体における上流・下流の依存関係を可視化したトポロジーマップを生成します。

トポロジーマップを活用して、以下の操作が可能です：

レイテンシーの急増を引き起こしている下流サービスを特定する
サービス間の異常な呼び出しパターンを検出する
デバッグを開始する前に、リクエストの完全なパスを把握する

インターフェイスモニタリング

アプリケーションモニタリングは、コード内の HTTP および RPC フレームワークを自動的に検出し、モニタリング対象として登録します。各インターフェイスについて、以下の 4 つのコアメトリックを収集します：

[呼び出し回数] — 時系列におけるリクエストボリューム
[応答時間] — 各インターフェイスごとのレイテンシー
[エラー回数] — 失敗したリクエスト数
[例外回数] — 未処理の例外数

インターフェイスモニタリングとトレースビューを併用することで、単一のリクエストをエンドツーエンドで追跡し、パフォーマンス問題の原因となっている正確なインターフェイスを特定できます。

トレース分析

複数のディメンションを用いて、トレース情報をリアルタイムでフィルタリングおよび集計できます。トレース分析により、以下のような課題に対応できます：

特定のレイテンシーしきい値を超える遅延呼び出しはどれか、またその発生タイミングはいつか？
異常なリクエストはマシン間でどのように分布しているか？
VIP 顧客からのトラフィックは、時間経過とともにどのように変化しているか？

スロークエリ分析

リレーショナルデータベース（MySQL、PostgreSQL）および NoSQL データベース（Redis、MongoDB）に対して、トランザクションパフォーマンスを低下させるクエリを特定するスロークエリ分析を実行できます。これにより、遅延トランザクションを検出し、問題の原因となる具体的なクエリまでドリルダウンできます。

インテリジェントインサイト

応答時間が急増したり、エラー率が急上昇した場合、インテリジェントインサイトは過去のアプリケーションデータおよび高度なアルゴリズムを活用して、自動的に問題を調査します。提供される情報には以下が含まれます：

[根本原因分析] — 問題の発生源として最も可能性の高い箇所を特定
[実行可能な推奨事項] — 問題解決に向けた具体的な対応ステップを提案
[アラートサブスクリプション] — ユーザーに影響が出る前に、事前に通知して迅速な対応を促す

継続的プロファイリング

継続的プロファイリングは、メソッド、クラス、行番号レベルで CPU 使用率およびメモリ使用量を診断します。パフォーマンスへのオーバーヘッドは極めて最小限です。プロファイリングデータを活用して、以下の操作が可能です：

レイテンシー低減のため、ホットコードパスを最適化する
リソースコスト削減のため、メモリ使用量の多いメソッドを特定する
非効率な操作を排除し、スループットを向上させる

アラート

ARMS では、JVM、ホスト、インターフェイスの各メトリックを対象とした 50 を超える事前設定アラートルールが提供されています。運用要件に合わせて、これらのルールをカスタマイズおよび組み合わせることができます。アラート管理サブサービスを通じて、以下の設定が可能です：

[アラート収束] — 関連するアラートをグループ化し、ノイズを低減
[通知] — 好みのチャネル（メール、SMS、チャットツールなど）を経由して、適切なチームへアラートをルーティング
[エスカレーション] — 解決されないアラートを自動的に上位担当者へエスカレート
[共同対応] — チーム間でインシデント対応を調整・連携

OpenTelemetry およびオープンソース統合

アプリケーションモニタリングは OpenTelemetry 仕様に準拠しており、複数言語および異種技術スタック間でのトレース相関を実現します。アプリケーションメトリックは、ご利用の Alibaba Cloud アカウント配下の Managed Service for Prometheus インスタンスに格納されます。デフォルトの Grafana ダッシュボードが標準搭載されており、Prometheus クエリ言語 (PromQL) を用いてカスタムダッシュボードの作成も可能です。