Lingjunクラスターは、Lingjun最適化コンポーネントを備えた高性能Lingjun計算ノードの集合です。 各LingjunノードはGPUサーバーに対応し、異種コンピューティングサービスをデプロイするために使用できます。 このトピックでは、LingjunクラスターとLingjunノードを管理する方法について説明します。 たとえば、Lingjunクラスターまたはノードに関する情報を表示し、Lingjunクラスターをスケールアウトできます。
Lingjunクラスターの管理
Lingjunクラスターは、次のいずれかの状態になります。
初期化に失敗しました: クラスターの初期化に失敗しました。 障害の詳細を表示する方法については、「O&Mタスクセンター」をご参照ください。
初期化: クラスターのネットワークが設定されており、クラスターのLingjun計算ノードが初期化されています。
実行中: クラスターは実行中です。 クラスターが [実行中] 状態の場合にのみ、クラスターをスケールアウトまたはスケールインしたり、ノードを再インストールまたは再起動したりできます。
重要クラスターのスケールアウト、クラスターのスケールイン、ノードの再インストール、およびノードの再起動タスクに異なるLingjun計算ノードが含まれる場合、これらのタスクを一度に送信して並行して実行できます。
クラスターに関する情報の表示
Intelligent Computing Lingjunコンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード]> [クラスター管理] を選択します。
管理するクラスターを見つけて、[操作] 列の [詳細] をクリックします。 [クラスターの詳細] ページが表示されます。
クラスター名、ノードグループ数、作成情報など、クラスターに関する基本情報を表示します。
クラスターの詳細については、[ノードグループ] 、[モニタリングとアラート] 、[基本メトリック] 、[RDMA] 、および [GPU] タブを参照してください。
クラスターのスケールアウト
クラスターをスケールアウトする場合は、関連するCPFSクラスターに関連ノードを追加および追加する各GPUノードに、クラウドパラレルファイルストレージ (CPFS) クライアントをインストールする必要があります。
追加したノードにもタグを追加する必要があります。
Intelligent Computing Lingjunコンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード]> [クラスター管理] を選択します。
管理するクラスターを見つけて、[操作] 列の [展開] をクリックします。
[元のグループの詳細] セクションで、ノードグループを見つけ、[操作] 列の [スケールアップ] をクリックします。
表示されるダイアログボックスで、ノード名プレフィックス、ログインパスワード、およびパスワードの確認パラメーターを設定します。
[未使用] タブで、未使用のノードを1つ以上選択するか、[ノードの購入] をクリックしてノードを購入します。 次に、[はい] をクリックします。
[スケールアップの詳細設定] セクションで、[送信の確認] をクリックします。
[クラスター管理] ページに戻ります。 クラスターの状態は [スケーリングアップ] です。 スケールアウトが完了するまで待ちます。
クラスター内のスケール
クラスターをスケールインすると、削除されたノードが再インストールされ、削除されたノードからすべてのデータが消去されます。 ノードを削除する前に、ノードデータがバックアップされていることを確認してください。
また、関連するCPFSクラスターから関連ノードを削除する必要があります。
Intelligent Computing Lingjunコンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード]> [クラスター管理] を選択します。
管理するクラスターを見つけて、[操作] 列の [縮小] をクリックします。
[元のグループの詳細] セクションで、クラスターから削除するノードを1つ以上選択し、[クラスターから一括削除] をクリックします。
スケールダウンの詳細な設定が表示されますセクションで、[送信の確認] をクリックします。
[スケールダウン設定の確認] ページで、フィールドに
[削除]
と入力し、[OK] をクリックします。[クラスター管理] ページに戻ります。 クラスターの状態は [スケーリングダウン] です。 スケールインが完了するまで待ちます。
クラスターの削除
クラスターを削除する前に、クラスターからすべてのノードを削除する必要があります。
クラスターが削除されても、関連付けられたCPFSクラスターは削除されません。
Intelligent Computing Lingjunコンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード]> [クラスター管理] を選択します。
削除するクラスターのIDをクリックします。 [クラスターの詳細] ページで、右上隅の [削除] をクリックします。
表示されたメッセージボックスで、[OK] をクリックします。
クラスターのノードグループを作成する
Lingjunクラスターのノードグループは、次のいずれかの方法で作成できます。
クラスターの作成時に、クラスターのノードグループを作成します。 詳細については、「クラスターとノードグループの設定」をご参照ください。
既存のクラスターのノードグループを作成します。
Intelligent Computing Lingjunコンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード]> [クラスター管理] を選択します。
ノードグループを作成するクラスターのIDをクリックします。
[クラスターの詳細] ページで、[ノードグループ] タブをクリックします。
[ノードグループ] タブで、[グループの作成] をクリックします。 ノードグループの名前やデフォルトモデルなど、ノードグループに関する情報を設定します。
オプションです。 ノードグループを作成した後、ノードグループの名前を変更したり、ノードグループを削除したりできます。
Lingjunノードの管理
Lingjun計算ノードで一度に実行できる操作は1つだけです。 たとえば、クラスターにノードを追加したり、クラスターからノードを削除したり、ノードを再インストールしたり、ノードを再起動したりできます。
ノードを購入する
Intelligent Computing Lingjunコンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード]> [ノード管理] を選択します。
[ノード管理] ページで、[ノードの購入] をクリックします。
指示に従ってノードを購入します。
ノードの詳細を表示する
Intelligent Computing Lingjunコンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード]> [ノード管理] を選択します。 [ノード管理] ページが表示されます。
すべてのノードを表示するには、[すべて] タブをクリックします。
ノードID、ノード名、イメージ名、ゾーンなど、ノードに関する基本情報を表示できます。
キーワードに基づいてノードを検索できます。 まず、ドロップダウンリストから [画像名] 、[ゾーン] 、[IPアドレス] などのカテゴリを選択します。 次に、検索ボックスにキーワードを入力し、検索アイコンをクリックします。
[未使用] タブをクリックして、未使用のノードを表示します。 ノードタイプやGPUなど、未使用のノードに関する基本情報を表示できます。
ノードにログオン
Intelligent Computing Lingjunコンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード]> [ノード管理] を選択します。
管理するノードを見つけ、[操作] 列の [詳細] アイコンをクリックし、[リモートログイン] を選択します。
ログインユーザー名として
root
を使用します。クラスターのログインパスワードを使用します。 詳細については、「基本的なLingjunクラスターの作成」トピックのクラスターとノードグループの設定セクションをご参照ください。
ノードの再インストール
ノードを再インストールすると、ノードデータが削除されます。 ノードを再インストールするときは注意してください。
クラスターが [実行中] 状態の場合にのみ、ノードを再インストールできます。
ノードを再インストールするときは、まず関連付けられたCPFSクラスターからノードを削除してから、再インストールされたノードをCPFSクラスターに追加する必要があります。
次の状況では、ノードを再インストールする必要があります。
ビジネスを再展開します。
OSのバージョンを変更します。
O&M要件を満たす。
手順
Intelligent Computing Lingjunコンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード]> [ノード管理] を選択します。
[ノード管理] ページで、管理するノードを見つけ、[操作] 列の [再インストール] をクリックします。 表示されるダイアログボックスで、イメージのバージョンを選択し、ノード名を変更し、ノードのルートパスワードを入力して確認し、[再インストール] をクリックします。
ノードの再起動
ノードを再起動すると、ビジネスの継続性に影響します。
クラスターが [実行中] 状態の場合のみ、ノードを再起動できます。
次の状況では、ノードを再起動する必要があります。
新しいアプリケーションまたはサービスを展開します。
システム設定を変更します。
O&M要件を満たす。
手順
Intelligent Computing Lingjunコンソールにログインします。
左側のナビゲーションウィンドウで、[リソースとノード]> [ノード管理] を選択します。
[ノード管理] ページで、管理するノードを見つけ、[操作] 列の [再起動] をクリックします。