このトピックでは、E-MapReduce (EMR) クラスターでSparkを使用して、OSS-HDFSに格納されているデータを処理する方法について説明します。
前提条件
EMR V3.42.0以降、またはEMR V5.8.0以降のクラスターが作成されています。 詳細については、「クラスターの作成」をご参照ください。
バケットのOSS-HDFSが有効になり、OSS-HDFSに対するアクセス許可が付与されます。 OSS-HDFSを有効にする方法の詳細については、「OSS-HDFSの有効化とアクセス許可の付与」をご参照ください。
手順
EMRクラスターにログインします。
EMRコンソールにログインします。 左側のナビゲーションウィンドウで、[ECS上のEMR] をクリックします。
作成したEMRクラスターをクリックします。
[ノード] タブをクリックし、ノードグループの左側にある [] をクリックします。
ECSインスタンスのIDをクリックします。 [インスタンス] ページで、インスタンスIDの横にある [接続] をクリックします。
SSHキーペアまたはSSHパスワードを使用してWindowsまたはLinuxでクラスターにログインする方法の詳細については、「クラスターにログインする」をご参照ください。
ターミナルで次のコマンドを実行して、Spark Shellを起動します。
スパークシェル
Sparkを使用してOSS-HDFSにアクセスします。
テーブルを作成します。
spark.sql("CREATE TABLE test_oss ('c1' 文字列) OPTIONS (PATH 'oss:// examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir')")
テーブルにデータを挿入します。
spark.sql("INSERT INTO TABLE test_oss SELECT 'testdata' AS c1")
テーブルのデータを照会します。
spark.sql("SELECT c1 FROM test_oss")