すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:Lingjunクラスターとノードの管理

最終更新日:Jul 22, 2024

Lingjunクラスターは、Lingjun最適化コンポーネントを備えた高性能Lingjun計算ノードの集合です。 各LingjunノードはGPUサーバーに対応し、異種コンピューティングサービスをデプロイするために使用できます。 このトピックでは、LingjunクラスターとLingjunノードを管理する方法について説明します。 たとえば、Lingjunクラスターまたはノードに関する情報を表示し、Lingjunクラスターをスケールアウトできます。

Lingjunクラスターの管理

image

Lingjunクラスターは、次のいずれかの状態になります。

  • 初期化に失敗しました: クラスターの初期化に失敗しました。 障害の詳細を表示する方法については、「O&Mタスクセンター」をご参照ください。

  • 初期化: クラスターのネットワークが設定されており、クラスターのLingjun計算ノードが初期化されています。

  • 実行中: クラスターは実行中です。 クラスターが [実行中] 状態の場合にのみ、クラスターをスケールアウトまたはスケールインしたり、ノードを再インストールまたは再起動したりできます。

    重要

    クラスターのスケールアウト、クラスターのスケールイン、ノードの再インストール、およびノードの再起動タスクに異なるLingjun計算ノードが含まれる場合、これらのタスクを一度に送信して並行して実行できます。

クラスターに関する情報の表示

  1. Intelligent Computing Lingjunコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード]> [クラスター管理] を選択します。

  3. 管理するクラスターを見つけて、[操作] 列の [詳細] をクリックします。 [クラスターの詳細] ページが表示されます。

    1. クラスター名、ノードグループ数、作成情報など、クラスターに関する基本情報を表示します。

    2. クラスターの詳細については、[ノードグループ][モニタリングとアラート][基本メトリック][RDMA] 、および [GPU] タブを参照してください。

クラスターのスケールアウト

説明

クラスターをスケールアウトする場合は、関連するCPFSクラスターに関連ノードを追加および追加する各GPUノードに、クラウドパラレルファイルストレージ (CPFS) クライアントをインストールする必要があります。

追加したノードにもタグを追加する必要があります。

  1. Intelligent Computing Lingjunコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード]> [クラスター管理] を選択します。

  3. 管理するクラスターを見つけて、[操作] 列の [展開] をクリックします。

    1. [元のグループの詳細] セクションで、ノードグループを見つけ、[操作] 列の [スケールアップ] をクリックします。

    2. 表示されるダイアログボックスで、ノード名プレフィックス、ログインパスワード、およびパスワードの確認パラメーターを設定します。

    3. [未使用] タブで、未使用のノードを1つ以上選択するか、[ノードの購入] をクリックしてノードを購入します。 次に、[はい] をクリックします。

  4. [スケールアップの詳細設定] セクションで、[送信の確認] をクリックします。

  5. [クラスター管理] ページに戻ります。 クラスターの状態は [スケーリングアップ] です。 スケールアウトが完了するまで待ちます。

クラスター内のスケール

警告
  • クラスターをスケールインすると、削除されたノードが再インストールされ、削除されたノードからすべてのデータが消去されます。 ノードを削除する前に、ノードデータがバックアップされていることを確認してください。

  • また、関連するCPFSクラスターから関連ノードを削除する必要があります。

  1. Intelligent Computing Lingjunコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード]> [クラスター管理] を選択します。

  3. 管理するクラスターを見つけて、[操作] 列の [縮小] をクリックします。

    1. [元のグループの詳細] セクションで、クラスターから削除するノードを1つ以上選択し、[クラスターから一括削除] をクリックします。

    2. スケールダウンの詳細な設定が表示されますセクションで、[送信の確認] をクリックします。

  4. [スケールダウン設定の確認] ページで、フィールドに [削除] と入力し、[OK] をクリックします。

  5. [クラスター管理] ページに戻ります。 クラスターの状態は [スケーリングダウン] です。 スケールインが完了するまで待ちます。

クラスターの削除

重要
  • クラスターを削除する前に、クラスターからすべてのノードを削除する必要があります。

  • クラスターが削除されても、関連付けられたCPFSクラスターは削除されません。

  1. Intelligent Computing Lingjunコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード]> [クラスター管理] を選択します。

  3. 削除するクラスターのIDをクリックします。 [クラスターの詳細] ページで、右上隅の [削除] をクリックします。

  4. 表示されたメッセージボックスで、[OK] をクリックします。

クラスターのノードグループを作成する

Lingjunクラスターのノードグループは、次のいずれかの方法で作成できます。

  • クラスターの作成時に、クラスターのノードグループを作成します。 詳細については、「クラスターとノードグループの設定」をご参照ください。

  • 既存のクラスターのノードグループを作成します。

    1. Intelligent Computing Lingjunコンソールにログインします。

    2. 左側のナビゲーションウィンドウで、[リソースとノード]> [クラスター管理] を選択します。

    3. ノードグループを作成するクラスターのIDをクリックします。

    4. [クラスターの詳細] ページで、[ノードグループ] タブをクリックします。

    5. [ノードグループ] タブで、[グループの作成] をクリックします。 ノードグループの名前やデフォルトモデルなど、ノードグループに関する情報を設定します。

    6. オプションです。 ノードグループを作成した後、ノードグループの名前を変更したり、ノードグループを削除したりできます。

Lingjunノードの管理

重要

Lingjun計算ノードで一度に実行できる操作は1つだけです。 たとえば、クラスターにノードを追加したり、クラスターからノードを削除したり、ノードを再インストールしたり、ノードを再起動したりできます。

ノードを購入する

  1. Intelligent Computing Lingjunコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード]> [ノード管理] を選択します。

  3. [ノード管理] ページで、[ノードの購入] をクリックします。

  4. 指示に従ってノードを購入します。

ノードの詳細を表示する

  1. Intelligent Computing Lingjunコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード]> [ノード管理] を選択します。 [ノード管理] ページが表示されます。

  3. すべてのノードを表示するには、[すべて] タブをクリックします。

    • ノードID、ノード名、イメージ名、ゾーンなど、ノードに関する基本情報を表示できます。

    • キーワードに基づいてノードを検索できます。 まず、ドロップダウンリストから [画像名][ゾーン][IPアドレス] などのカテゴリを選択します。 次に、検索ボックスにキーワードを入力し、検索アイコンをクリックします。

  4. [未使用] タブをクリックして、未使用のノードを表示します。 ノードタイプやGPUなど、未使用のノードに関する基本情報を表示できます。

ノードにログオン

  1. Intelligent Computing Lingjunコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード]> [ノード管理] を選択します。

  3. 管理するノードを見つけ、[操作] 列の [詳細] アイコンをクリックし、[リモートログイン] を選択します。

    • ログインユーザー名としてrootを使用します。

    • クラスターのログインパスワードを使用します。 詳細については、「基本的なLingjunクラスターの作成」トピックのクラスターとノードグループの設定セクションをご参照ください。

ノードの再インストール

重要
  • ノードを再インストールすると、ノードデータが削除されます。 ノードを再インストールするときは注意してください。

  • クラスターが [実行中] 状態の場合にのみ、ノードを再インストールできます。

  • ノードを再インストールするときは、まず関連付けられたCPFSクラスターからノードを削除してから、再インストールされたノードをCPFSクラスターに追加する必要があります。

次の状況では、ノードを再インストールする必要があります。

  • ビジネスを再展開します。

  • OSのバージョンを変更します。

  • O&M要件を満たす。

手順

  1. Intelligent Computing Lingjunコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード]> [ノード管理] を選択します。

  3. [ノード管理] ページで、管理するノードを見つけ、[操作] 列の [再インストール] をクリックします。 表示されるダイアログボックスで、イメージのバージョンを選択し、ノード名を変更し、ノードのルートパスワードを入力して確認し、[再インストール] をクリックします。

ノードの再起動

重要
  • ノードを再起動すると、ビジネスの継続性に影響します。

  • クラスターが [実行中] 状態の場合のみ、ノードを再起動できます。

次の状況では、ノードを再起動する必要があります。

  • 新しいアプリケーションまたはサービスを展開します。

  • システム設定を変更します。

  • O&M要件を満たす。

手順

  1. Intelligent Computing Lingjunコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、[リソースとノード]> [ノード管理] を選択します。

  3. [ノード管理] ページで、管理するノードを見つけ、[操作] 列の [再起動] をクリックします。