すべてのプロダクト
Search
ドキュメントセンター

Realtime Compute for Apache Flink:モニタリングメトリック

最終更新日:Jan 22, 2026

このトピックでは、フルマネージド Flink でサポートされているメトリックについて説明します。

注意事項

Cloud Monitor と Flink コンソールの間のデータ差異

  1. 表示ディメンションの違い
    Flink コンソールでは、Prometheus Query Language (PromQL) クエリを使用して最大レイテンシーのみを表示します。これは、リアルタイムコンピューティングのシナリオでは、平均レイテンシーがデータスキューや単一パーティションのブロッキングといった重大な問題を隠してしまう可能性があるためです。運用保守 (O&M) にとって価値のある情報は、最大レイテンシーのみが提供します。

  2. 値のドリフト
    Cloud Monitor は、事前集計メカニズムを使用してメトリックを計算します。集計ウィンドウ、サンプリング時間、または計算ロジックの違いにより、Cloud Monitor に表示される最大値は、Flink コンソールに表示されるリアルタイムの値とわずかに異なる場合があります。トラブルシューティングの際は、Flink コンソールのデータを基準としてください。

データレイテンシーとウォーターマークの設定

  1. レイテンシーの計算ロジック
    現在のモニタリングメトリックである Emit Delay は、イベント時間に基づいて計算されます。計算式は次のとおりです。

    遅延 = 現在のシステム時刻 - データペイロード内の論理時間フィールド (例:PriceData.time)

    これは、このメトリックがシステムの処理速度ではなく、データの鮮度を反映していることを意味します。データ自体が古い場合や、システムがウォーターマークのアライメントを待つために出力を一時停止した場合、メトリックの値は高くなります。

  2. 推奨される調整

    シナリオ 1:ビジネスロジックが正確性のためにウォーターマークに強く依存しているが、データソースが古い場合

    • 典型的な状況:

      • 上流のデータ伝送に固有のレイテンシーがある (例:イベントトラッキングレポートが遅い)。

      • 履歴データをバックフィルしており、前日のデータを処理している。

      • ビジネスロジックは、順序不同のイベントを処理するためにウォーターマークに依存する必要があり、無効にできない

    • 症状:モニタリングアラートでは高いレイテンシーが示されているが、Kafka コンシューマーグループにはメッセージの蓄積がなく (ラグ ≈ 0)、CPU 負荷も低い。

    • 推奨事項:

      1. このレイテンシーメトリックを無視する:この場合、データが古いことを反映しているため、高い遅延は通常のビジネス動作です。これはシステム障害を示すものではありません

      2. モニタリングメトリックを変更する:運用保守エンジニアは、代わりに Kafka コンシューマーラグ (メッセージの蓄積) をモニタリングする必要があります。蓄積が継続的に増加しない限り、システムの処理能力は正常であり、介入は不要です。

    シナリオ 2:リアルタイムパフォーマンスが優先され、軽微な順序不同のイベントやデータ損失が許容できる場合

    • 典型的な状況:

      • ダッシュボードやリアルタイムリスク管理において、データがウォーターマークを待っているため出力が遅い。

      • ビジネスでは、「データ内のタイムスタンプ」よりも「データがいつ受信されたか」が重要視される。

    • 症状:データストリームはリアルタイムであるが、ウォーターマークに大きな許容ウィンドウ (例:10 秒の遅延を許可) が設定されているため、データ出力が 10 秒遅延する。

    • 推奨事項:

      1. ウォーターマークを削除または無効にする:計算を処理時間に切り替えるか、ウォーターマークの待機しきい値を 0 に設定できます。

      2. 期待される結果:レイテンシーメトリックは即座に低下し、物理的な処理時間に近づきます。データはアライメントを待つことなく、到着次第処理および出力されます。

典型的なシナリオにおけるメトリックの特性

メトリックはコンポーネントの現在の状態を反映するだけであり、問題の根本原因を特定するには不十分です。包括的な診断のためには、常に Flink UI のバックプレッシャー検出機能やその他の補助ツールを使用する必要があります。

1. オペレーターのバックプレッシャー

症状:下流の処理能力が不足しているため、ソースの送信レートが低下します。

  • 検出方法:Flink UI のバックプレッシャーモニタリングパネルを使用します。

  • メトリックの特性

    • sourceIdleTime が定期的に増加します。

    • currentFetchEventTimeLag と currentEmitEventTimeLag が継続的に増加します。

    • 極端なケース:オペレーターが完全にスタックした場合、sourceIdleTime は継続的に増加します。

2. ソースのパフォーマンスボトルネック

症状:ソースの読み取り速度が限界に達しているが、データ処理の要求を満たせていません。

  • 検出方法:ジョブでバックプレッシャーが検出されません。

  • メトリックの特性

    • sourceIdleTime が非常に低い値で推移しており、これはソースがフル稼働していることを示します。

    • currentFetchEventTimeLag と currentEmitEventTimeLag の値が類似しており、かつ高い値を示します。

3. データスキューまたは空のパーティション

症状:データが上流の Kafka パーティション間で不均等に分散しているか、空のパーティションが存在します。

  • 検出方法:さまざまなソース間のメトリックの違いを観察します。

  • メトリックの特性

    • 特定のソースの sourceIdleTime が他のソースよりも著しく高く、これはその並列度がアイドル状態であることを示します。

4. データレイテンシー分析

症状:ジョブ全体のレイテンシーが高く、ボトルネックがソース内にあるのか、外部システムにあるのかを特定する必要があります。

  • 検出方法:アイドル時間、ラグの差、メッセージの蓄積の組み合わせを分析します。

  • メトリックの特性

    • 高い sourceIdleTime
      これはソースがアイドル状態であることを示します。通常、Flink の処理が遅いのではなく、外部システムのデータ出力レートが低いことを意味します。

    • ラグの差の分析
      currentEmitEventTimeLag と currentFetchEventTimeLag の差 (データがソースオペレーター内に滞在する時間) を比較します。

      • 差が小さい (2 つのメトリックが近い):プル能力が不足しています。ボトルネックは、ネットワーク I/O 帯域幅またはソースの並列度の不足にあります。

      • 差が大きい処理能力が不足しています。ボトルネックは、非効率なデータ解析または下流のバックプレッシャーによる制限です。

    • pendingRecords (コネクタがサポートしている場合):
      このメトリックは、外部に保持されているデータ量を直接反映します。値が高いほど、外部システムでのデータ蓄積が深刻であることを示します。

概要

メトリクス

定義

詳細

単位

サポートされているコネクタ

再起動回数

エラーによるジョブの再起動回数。

JobManager (JM) のフェイルオーバーを除く、エラーによるジョブの再起動回数。ジョブの可用性とステータスを確認するために使用します。

回数

該当なし

current Emit Event Time Lag

ビジネスレイテンシー。

値が高い場合は、データのプルまたは処理に潜在的なレイテンシーがあることを示します。

ms

  • Kafka

  • RocketMQ

  • SLS

  • DataHub

  • Postgres CDC

  • Hologres (Binlog Source)

current Fetch Event Time Lag

伝送レイテンシー。

値が高い場合は、データのプルに潜在的なレイテンシーがあることを示します。ネットワーク I/O または上流システムを確認してください。この値を currentEmitEventTimeLag と比較することで、その差 (データがソースに滞在する時間) に基づいてソースの処理能力を分析できます。詳細は次のとおりです。

  • 2 つのレイテンシー値が非常に近い場合、ネットワーク I/O または並行性の問題により、ソースが外部システムからデータをプルする能力が不足しています。

  • 2 つのレイテンシー値の差が大きい場合、ジョブの処理能力が不足しており、データがソースに保持されています。対象ジョブの詳細ページで、[ステータス] タブをクリックします。[BackPressure] ページで、問題のある Vertex トポロジーを特定します。その後、[Thread Dump] ページに移動してスタックを分析し、ボトルネックを特定します。

ms

  • Kafka

  • RocketMQ

  • SLS

  • DataHub

  • Postgres CDC

  • Hologres (Binlog Source)

numRecordsIn

すべてのオペレーターの総入力レコード数。

オペレーターの numRecordsIn 値が長時間増加しない場合、上流がすべてのデータを消費した可能性があります。上流のデータを確認してください。

すべての組み込みコネクタがサポートされています。

numRecordsOut

総出力レコード数。

オペレーターの numRecordsOut 値が長時間増加しない場合、ジョブコードに論理エラーがあり、データが破棄されている可能性があります。ジョブコードのロジックを確認してください。

すべての組み込みコネクタがサポートされています。

numRecordsInofSource

ソースオペレーター専用の入力レコード。

上流のデータ入力ステータスを確認します。

  • Kafka

  • MaxCompute

  • Incremental MaxCompute

  • RocketMQ

  • SLS

  • DataHub

  • ElasticSearch

  • Hologres

numRecordsOutOfSink

シンクからの総出力レコード数。

データ出力ステータスを確認します。

回数

  • Kafka

  • SLS

  • DataHub

  • Hologres

  • HBase

  • Tablestore

  • Redis

numRecordsInPerSecond

データストリーム全体の秒間入力レコード数。

データストリーム全体の処理速度をモニタリングする必要があるシナリオで使用します。たとえば、numRecordsInPerSecond を使用して、データストリーム全体の処理速度が期待どおりか、また異なる入力データ負荷の下でパフォーマンスがどのように変化するかを観察できます。

records/s

すべての組み込みコネクタがサポートされています。

numRecordsOutPerSecond

データストリーム全体の秒間出力レコード数。

データストリーム全体の秒間出力レコード数を測定します。データストリーム全体の出力速度をモニタリングする必要があるシナリオで使用します。

たとえば、numRecordsOutPerSecond を使用して、データストリーム全体の出力速度が期待どおりか、また異なる出力データ負荷の下でパフォーマンスがどのように変化するかを観察できます。

records/s

すべてのコネクタがサポートされています。

numRecordsInOfSourcePerSecond (IN RPS)

データソースでの秒間入力レコード数。

各データソースによって秒間に生成されるレコード数を測定します。これは、各ソースの生成速度を理解するのに役立ちます。たとえば、データストリームでは、異なるデータソースが異なる数のレコードを生成する場合があります。numRecordsInOfSourcePerSecond を使用して、各データソースの生成速度を理解し、パフォーマンスを向上させるためにデータストリームを調整します。このデータは、モニタリングとアラートにも使用されます。

この値が 0 の場合、上流がすべてのデータを消費したか、上流データが消費されていないために出力がブロックされている可能性があります。上流のデータを確認してください。

records/s

  • Kafka

  • MaxCompute

  • Incremental MaxCompute

  • RocketMQ

  • SLS

  • DataHub

  • ElasticSearch

  • Hologres

numRecordsOutOfSinkPerSecond (OUT RPS)

データシンクでの秒間出力レコード数。

各シンクによって秒間に出力されるレコード数を測定します。これは、各シンクの出力速度を理解するのに役立ちます。たとえば、データストリームでは、異なるシンクが異なる数のレコードを出力する場合があります。

numRecordsOutOfSinkPerSecond を使用して、各シンクの出力速度を理解し、パフォーマンスを向上させるためにデータストリームを調整します。このデータは、モニタリングとアラートに使用されます。この値が 0 の場合、すべてのデータをフィルタリングする論理エラーがジョブコードにある可能性があります。ジョブコードのロジックを確認してください。

records/s

  • Kafka

  • MaxCompute

  • Incremental MaxCompute

  • SLS

  • DataHub

  • Hologres

  • HBase

  • Tablestore

  • Redis

pendingRecords

ソースでの未読レコード数。

外部システム内で、まだソースによってプルされていないデータレコードの数。

  • Kafka

  • ElasticSearch

sourceIdleTime

データがソースで未処理のままになっている期間。

このメトリックは、ソースがアイドル状態であるかどうかを示します。値が大きい場合は、外部システムでのデータ生成レートが低いことを示します。

ms

  • Kafka

  • RocketMQ

  • Postgres CDC

  • Hologres (Binlog Source)

システムチェックポイント

メトリクス

定義

詳細

単位

チェックポイントの数

チェックポイントの数。

チェックポイントのステータスの概要を提供し、チェックポイントアラートの設定に役立ちます。

lastCheckpointDuration

最後のチェックポイントの期間。

チェックポイントに時間がかかりすぎる、またはタイムアウトする場合、大きなステート、一時的なネットワークの問題、アライメントされていないバリア、またはデータバックプレッシャーが原因である可能性があります。

ms

lastCheckpointSize

最後のチェックポイントのサイズ。

最後のチェックポイントの実際のアップロードサイズ。ボトルネックが発生した際のチェックポイントパフォーマンスの分析に役立ちます。

バイト

状態

説明

ステートレイテンシーメトリックは、有効にした後にのみ利用可能です。高度な Flink 設定で、state.backend.latency-track.keyed-state-enabled: true を設定してください。ステートレイテンシーメトリックを有効にすると、ジョブのランタイムパフォーマンスに影響を与える可能性があります。

メトリック

定義

詳細

単位

バージョン制限

State Clear Latency

単一のステートクリア操作の最大レイテンシー。

ステートクリーンアップのパフォーマンスを表示します。

ナノ秒 (ns)

VVR 4.0.0 以降。

Value State Latency

単一の Value State アクセスの最大レイテンシー。

Value State アクセスのパフォーマンスを表示します。

ns

Aggregating State Latency

単一の Aggregating State アクセスの最大レイテンシー。

Aggregating State アクセスのパフォーマンスを表示します。

ns

Reducing State Latency

単一の Reducing State アクセスの最大レイテンシー。

Reducing State アクセスのパフォーマンスを表示します。

ns

Map State Latency

単一の Map State アクセスの最大レイテンシー。

Map State アクセスのパフォーマンスを表示します。

ns

List State Latency

単一の List State アクセスの最大レイテンシー。

List State アクセスのパフォーマンスを表示します。

ns

Sorted Map State Latency

単一の Sorted Map State アクセスの最大レイテンシー。

Sorted Map State アクセスのパフォーマンスを表示します。

ns

State Size

ステートデータのサイズ。

このメトリックを観察することで、以下が可能になります:

  • ステートボトルネックの可能性があるノードを直接的または積極的に特定する。

  • TTL が有効かどうかを判断する。

バイト

VVR 4.0.12 以降。

State File Size

ステートデータファイルのサイズ。

このメトリックを観察することで、以下が可能になります:

  • ローカルディスク上のステートが占有するディスク領域を表示し、サイズが大きい場合は事前に対策を講じる。

  • ローカルディスク領域の不足が、過度に大きなステートデータによって引き起こされているかどうかを判断する。

バイト

VVR 4.0.13 以降。

I/O

メトリック

定義

詳細

単位

サポートされているコネクタ

numBytesIn

総入力バイト数。

上流からの入力スループットを表示して、ジョブのトラフィックを観察します。

バイト

  • Kafka

  • MaxCompute

  • Incremental MaxCompute

  • RocketMQ

numBytesInPerSecond

秒間総入力バイト数。

上流からの入力ストリームレートを表示して、ジョブのトラフィックを観察します。

バイト/秒

  • Kafka

  • MaxCompute

  • Incremental MaxCompute

  • RocketMQ

numBytesOut

総出力バイト数。

出力スループットを表示して、ジョブのトラフィックを観察します。

バイト

  • Kafka

  • RocketMQ

  • DataHub

  • HBase

numBytesOutPerSecond

秒間総出力バイト数。

出力スループットレートを表示して、ジョブのトラフィックを観察します。

バイト/秒

  • Kafka

  • RocketMQ

  • DataHub

  • HBase

タスク numRecords I/O

各サブタスクが受信および出力する総データ量。

このメトリックを使用して、ジョブに I/O ボトルネックがあるかどうかを判断します。

  • Kafka

  • MaxCompute

  • Incremental MaxCompute

  • SLS

  • DataHub

  • ElasticSearch

  • Hologres

  • HBase

  • Tablestore

  • Redis

タスク numRecords I/O PerSecond

各サブタスクが秒間に受信および送信する総データ量。

ジョブに I/O ボトルネックがあるかどうかを判断し、レートに基づいてその深刻度を評価します。

records/s

  • Kafka

  • MaxCompute

  • Incremental MaxCompute

  • SLS

  • DataHub

  • ElasticSearch

  • Hologres

  • HBase

  • Tablestore

  • Redis

currentSendTime

各サブタスクが最後のレコードを下流システムに送信するのにかかった時間。

このメトリックの値が小さい場合は、サブタスクの出力が遅いことを示します。

ms

  • Kafka

  • MaxCompute

  • Incremental MaxCompute

  • RocketMQ

  • SLS

  • DataHub

  • Hologres

    説明

    JDBC および RPC モードでサポートされています。BHClient モードではサポートされていません。

  • HBase

  • Tablestore

  • Redis

ウォーターマーク

メトリック

定義

詳細

単位

サポートされているコネクタ

タスク入力ウォーターマーク

各タスクが最新のウォーターマークを受信した時刻。

TM でのデータ受信レイテンシーを示します。

なし

コネクタには適用されません

ウォーターマークラグ

ウォーターマークのレイテンシー。

サブタスクレベルでジョブのレイテンシーを判断します。

ms

  • Kafka

  • RocketMQ

  • SLS

  • DataHub

  • Hologres (Binlog Source)

CPU

メトリック

定義

詳細

単位

JM CPU使用率

単一 JM の CPU 使用率。

この値は、Flink による CPU タイムスライスの使用状況を反映します。100% は 1 つの CPU コアが完全に使用されていることを意味し、400% は 4 つのコアが完全に使用されていることを意味します。この値が常に 100% を超える場合、CPU はビジー状態です。負荷が高いにもかかわらず CPU 使用率が低い場合は、頻繁な I/O 操作によって引き起こされる割り込み不可能なスリープ状態のプロセスが多すぎる可能性があります。

説明

このメトリックは VVR 6.0.6 以降でのみサポートされています。

なし

TM CPU使用率

単一 TM の CPU 使用率。

この値は、Flink による CPU タイムスライスの使用状況を反映します。100% は 1 つの CPU コアが完全に使用されていることを意味し、400% は 4 つのコアが完全に使用されていることを意味します。この値が常に 100% を超える場合、CPU はビジー状態です。負荷が高いにもかかわらず CPU 使用率が低い場合は、頻繁な I/O 操作によって引き起こされる割り込み不可能なスリープ状態のプロセスが多すぎる可能性があります。

なし

メモリ

メトリック

定義

詳細

単位

JM ヒープメモリ

JM のヒープメモリ。

JM のヒープメモリの変更を表示します。

バイト

JM 非ヒープメモリ

JM の非ヒープメモリ。

JM の非ヒープメモリの変更を表示します。

バイト

TM ヒープメモリ

TM のヒープメモリ。

TM のヒープメモリの変更を表示します。

バイト

TM 非ヒープメモリ

TM の非ヒープメモリ。

TM の非ヒープメモリの変更を表示します。

バイト

TM メモリ (RSS)

Linux を介して取得された、プロセス全体のメモリ。

プロセスメモリの変更を表示します。

バイト

JVM

メトリック

定義

詳細

単位

JM スレッド

JM スレッドの数。

JM スレッドが多すぎると、過剰なメモリを消費し、ジョブの安定性を低下させる可能性があります。

TM スレッド

TM スレッドの数。

TM スレッドが多すぎると、過剰なメモリを消費し、ジョブの安定性を低下させる可能性があります。

単位

JM GC 回数

JM GC イベントの数。

GC イベントが多すぎると、過剰なメモリを消費し、ジョブのパフォーマンスに影響を与える可能性があります。このメトリックは、ジョブの診断とジョブレベルの障害のトラブルシューティングに役立ちます。

JM GC 時間

各 JM GC イベントの期間。

GC 時間が長いと、過剰なメモリを消費し、ジョブのパフォーマンスに影響を与える可能性があります。このメトリックは、ジョブの診断とジョブレベルの障害のトラブルシューティングに役立ちます。

ms

TM GC 回数

TM GC イベントの数。

GC イベントが多すぎると、過剰なメモリを消費し、ジョブのパフォーマンスに影響を与える可能性があります。このメトリックは、ジョブの診断とタスクレベルの障害のトラブルシューティングに役立ちます。

TM GC 時間

各 TM GC イベントの期間。

GC 時間が長いと、過剰なメモリを消費し、ジョブのパフォーマンスに影響を与える可能性があります。このメトリックは、ジョブの診断とジョブレベルの障害のトラブルシューティングに役立ちます。

ms

JM ClassLoader

JM の JVM が作成されてからロードまたはアンロードしたクラスの総数。

JM の JVM によってロードまたはアンロードされたクラスの総数が多すぎると、過剰なメモリを消費し、ジョブのパフォーマンスに影響を与える可能性があります。

なし

TM ClassLoader

TM の JVM が作成されてからロードまたはアンロードしたクラスの総数。

JM の JVM で多くのクラスをロードまたはアンロードすると、過剰なメモリ消費を引き起こし、ジョブのパフォーマンスを低下させる可能性があります。

なし

コネクタ - MySQL

メトリック

定義

単位

適用シナリオ

バージョン制限

isSnapshotting

ジョブが完全データ処理フェーズにあるかどうかを示します (1 は「はい」を意味します)。

なし

ジョブの処理フェーズを判断します。

VVR 8.0.9 以降。

isBinlogReading

ジョブが増分データ処理フェーズにあるかどうかを示します (1 は「はい」を意味します)。

なし

ジョブの処理フェーズを判断します。

残りのテーブル数

完全データフェーズで処理を待機しているテーブルの数。

件数

残りの未処理テーブルの数を表示します。

スナップショットされたテーブル数

完全データフェーズですでに処理されたテーブルの数。

単位

処理済みテーブルの数を表示します。

残りのSnapshotSplits数

完全データフェーズで処理を待機しているシャードの数。

処理済みシャード数の表示

処理されたSnapshotSplits数

完全データフェーズですでに処理されたシャードの数。

単位

未処理シャード数の確認

currentFetchEventTimeLag

データが生成されてからデータベースから読み取られるまでのレイテンシー。

ms

データベースからバイナリログを読み取るレイテンシーを表示します。

currentReadTimestampMs

最後に読み取られたデータレコードのタイムスタンプ。

ms

最後に読み取られたデータの時刻を表示します。

numRecordsIn

すでに読み取られたレコードの数。

処理されたデータの総量を表示します。

numSnapshotRecords

完全データフェーズで処理されたレコードの数。

完全データフェーズで処理されたデータ量を表示します。

numRecordsInPerTable

各テーブルから読み取られたレコードの数。

件数

各テーブルで処理されたデータの総量を表示します。

numSnapshotRecordsPerTable

完全データフェーズで各テーブルに対して処理されたレコードの数。

件数

完全データフェーズで各テーブルに対して処理されたデータ量を表示します。

コネクタ - Kafka

メトリック

定義

単位

適用シナリオ

制限

commitsSucceeded

成功したオフセットコミット数

回数

オフセットコミットが成功したことを確認します。

VVR 8.0.9 以降。

commitsFailed

失敗したオフセットコミットの数。

回数

オフセットコミットが成功したことを確認します。

フェッチレート

データプル頻度。

回/秒

データプルのレイテンシーと速度を判断します。

平均フェッチレイテンシ

データプル操作の平均レイテンシー。

ms

データプルのレイテンシーと速度を判断します。

平均フェッチサイズ

プルあたりの平均バイト数。

バイト

データプルのレイテンシーと速度を判断します。

リクエストごとの平均受信レコード数

プルあたりの平均メッセージ数

項目

データプルのレイテンシーと速度を判断します。

currentSendTime

最後のレコードが送信された時刻。

なし

消費の進捗を判断します。

平均バッチサイズ

バッチあたりの平均バイト数。

バイト

データ書き込みのレイテンシーと速度を判断します。

平均リクエストレイテンシ

平均リクエストレイテンシー。

ms

データ書き込みのレイテンシーと速度を判断します。

requestsInFlight

処理中のリクエスト数。

なし

データ書き込みのレイテンシーと速度を判断します。

リクエストごとの平均レコード数

リクエストあたりの平均メッセージ数

アイテム

データ書き込みのレイテンシーと速度を判断します。

平均レコードサイズ

平均メッセージサイズ (バイト単位)

バイト

データ書き込みのレイテンシーと速度を判断します。

コネクタ - Paimon

メトリック

定義

単位

適用シナリオ

制限

ライターの数

ライターインスタンスの数。

件数

現在書き込み中のバケット数を示します。数が多いと書き込み効率に影響し、メモリ消費量が増加する可能性があります。バケット数やパーティションキーの設定が合理的かどうかを分析します。

VVR 8.0.9 以降。

最大圧縮スレッドビジー

小規模ファイルコンパクションスレッドの最大ビジーレベル。

比率

現在書き込み中のバケットの中で、過去 1 分間にコンパクションスレッドがアクティブだった時間の最大パーセンテージ。小規模ファイルコンパクションへの圧力を反映します。

平均圧縮スレッドビジー

小規模ファイルコンパクションスレッドの平均ビジーレベル。

比率

現在書き込み中のバケットの中で、過去 1 分間にコンパクションスレッドがアクティブだった時間の平均パーセンテージ。小規模ファイルコンパクションへの圧力を反映します。

レベル 0 ファイルの最大数

レベル 0 ファイルの最大数。

現在書き込み中のバケットにおけるレベル 0 ファイル (小規模ファイル) の最大数。これはプライマリキーテーブルでのみ意味があり、コンパクション効率が書き込み効率に追いついているかどうかを反映します。

レベル 0 ファイルの平均数

レベル 0 ファイルの平均数。

件数

現在書き込み中のバケットにおけるレベル 0 ファイル (小規模ファイル) の平均数。これはプライマリキーテーブルでのみ意味があり、コンパクション効率が書き込み効率に追いついているかどうかを反映します。

最後のコミット所要時間

最後のコミットの期間。

ms

期間が長すぎる場合は、同時に書き込まれているバケットが多すぎないか確認してください。

最後にコミットされたパーティションの数

最後のコミットで書き込まれたパーティションの数。

数が多いと書き込み効率に影響し、メモリ消費量が増加する可能性があります。バケット数やパーティションキーの設定が合理的かどうかを分析します。

最後にコミットされたバケットの数

最後のコミットで書き込まれたバケットの数。

数が多いと書き込み効率に影響し、メモリ消費量が増加する可能性があります。バケット数やパーティションキーの設定が合理的かどうかを分析します。

使用済み書き込みバッファー

使用済み書き込みバッファのメモリサイズ。

バイト

すべてのタスクマネージャーにわたるライターノードの使用済みバッファサイズ。このバッファは Java ヒープメモリを占有します。大きすぎると、Out-of-Memory (OOM) エラーを引き起こす可能性があります。

合計書き込みバッファー

割り当てられた書き込みバッファの総メモリサイズ。

バイト

すべてのタスクマネージャーにわたるライターノードに設定されたバッファサイズ。このバッファは Java ヒープメモリを占有します。大きすぎると、OOM エラーを引き起こす可能性があります。

データインジェスト

メトリック

定義

単位

適用シナリオ

バージョン制限

isSnapshotting

ジョブが完全データ処理フェーズにあるかどうかを示します (1 は「はい」を意味します)。

なし

ジョブの処理フェーズを判断します。

VVR 8.0.9 以降。

isBinlogReading

ジョブが増分データ処理フェーズにあるかどうかを示します (1 は「はい」を意味します)。

なし

ジョブの処理フェーズを判断します。

残りのテーブル数

完全データフェーズで処理を待機しているテーブルの数。

残りの未処理テーブルの数を表示します。

スナップショットされたテーブル数

完全データフェーズですでに処理されたテーブルの数。

件数

処理済みテーブルの数を表示します。

残りの SnapshotSplits の数

完全データフェーズで処理を待機しているシャードの数。

単位

処理済みシャード数の表示

処理された SnapshotSplits の数

完全データフェーズですでに処理されたシャードの数。

未処理シャード数の確認

currentFetchEventTimeLag

データが生成されてからデータベースから読み取られるまでのレイテンシー。

ms

データベースからバイナリログを読み取るレイテンシーを表示します。

currentReadTimestampMs

最後に読み取られたデータレコードのタイムスタンプ。

ms

最後に読み取られたデータの時刻を表示します。

numRecordsIn

すでに読み取られたレコードの数。

処理されたデータの総量を表示します。

numRecordsInPerTable

各テーブルから読み取られたレコードの数。

各テーブルで処理されたデータの総量を表示します。

numSnapshotRecords

完全データフェーズで処理されたレコードの数。

完全データフェーズで処理されたデータ量を表示します。

numSnapshotRecordsPerTable

完全データフェーズで各テーブルに対して処理されたレコードの数。

エントリ

完全データフェーズで各テーブルに対して処理されたデータ量を表示します。