すべてのプロダクト
Search
ドキュメントセンター

Object Storage Service:SparkでJindoSDKを使用してOSS-HDFSに格納されたデータを照会する

最終更新日:May 06, 2024

JindoSDKは、HadoopおよびSparkエコシステム用に開発されたシンプルで使いやすいObject Storage Service (OSS) クライアントです。 クライアントは、OSSに基づいて高度に最適化されたHadoopファイルシステムを実装します。 JindoSDKとSparkを使用すると、Hadoop OSSクライアントよりも優れたクエリパフォーマンスでOSS-HDFSに格納されたデータをクエリできます。

前提条件

手順

  1. ECS インスタンスに接続します。 詳細については、「インスタンスへの接続」をご参照ください。

  2. JindoSDKを設定します。

    1. JindoSDK JARパッケージの最新バージョンをダウンロードします。 詳細については、『GitHub』をご参照ください。

    2. JindoSDK JARパッケージを解凍します。

      次のサンプルコードは、jindosdk-x.x.x-linux.tar.gzという名前のパッケージを解凍する方法の例を示しています。 別のバージョンのJindoSDKを使用する場合は、パッケージ名を対応するJARパッケージの名前に置き換えます。

      tar zxvf jindosdk-x.x.x-linux.tar.gz
      説明

      x.x.xは、JindoSDK JARパッケージのバージョン番号を示します。

    3. オプション。 Kerberos関連およびSASL関連の依存関係が環境に含まれていない場合は、JindoSDKがデプロイされているすべてのノードに次の依存関係をインストールします。

      • UbuntuまたはDebian

        sudo apt-getインストールlibkrb5-dev krb5-admin-server krb5-kdc krb5-user libsasl2-dev libsasl2-modules libsasl2-modules-gssapi-mit
      • Red Hat Enterprise LinuxまたはCentOS

        sudo yum install krb5-server krb5-workstation cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain
      • macOS

        brew install krb5
    4. ダウンロードしたJindoSDK JARパッケージをクラスパスで指定されたパスにコピーします。

      cp jindosdk-x.x.x-linux/lib/*.jar $SPARK_HOME/jars/
  3. バケットの実装クラスを設定し、OSS-HDFSへのアクセスに使用するAccessKeyペアを指定します。

    • core-site.xmlファイルで設定を行う

      1. Sparkのcore-site.xmlファイルでOSS-HDFSの実装クラスを設定します。

        <configuration>
            <property>
                <name>fs.AbstractFileSystem.oss.impl</name>
                <value>com.aliyun.jindodata.oss.JindoOSS</value>
            </property>
        
            <property>
                <name>fs.oss.impl</name>
                <value>com.aliyun.jindodata.oss.JindoOssFileSystem</value>
            </property>
        </configuration> 
      2. OSS-HDFSが有効になっているバケットへのアクセスに使用するAccessKey IDとAccessKey secretを、Sparkのcore-site.xml設定ファイルで設定します。

        <configuration>
            <property>
                <name>fs.oss.accessKeyId</name>
                <value>LTAI ******** </value>
            </property>
        
            <property>
                <name>fs.oss.accessKeySecret</name>
                <value>KZo1 ********</value>
            </property>
        </configuration> 
    • Sparkジョブを送信するときの設定を構成する

      次のサンプルコードは、Sparkの実装クラスを設定し、OSS-HDFSジョブを送信するときにバケットへのアクセスに使用するAccessKeyペアを指定する方法の例を示しています。

      spark-submit -- conf spark.hadoop.fs.AbstractFileSystem.oss.impl=com.aliyun. Qindodata. oss.
      OSS -- conf spark.hadoop.fs.oss.impl=com.aliyun.jindodata.oss.JindoOssFileSystem-conf. hadoop. L*5*6-Secret Kehgise
  4. OSS-HDFSのエンドポイントを設定します。

    OSS-HDFSを使用してObject Storage Service (OSS) のバケットにアクセスする場合は、OSS-HDFSのエンドポイントを指定する必要があります。 OSS-HDFSへのアクセスに使用されるパスをoss://<Bucket>.<Endpoint>/<Object> 形式で設定することを推奨します。 例: oss:// examplebucket.cn-shanghai.oss-dls.aliyuncs.com/exampleobject.txt アクセスパスを設定した後、JindoSDKはアクセスパスで指定されたエンドポイントに基づいて対応するOSS-HDFS操作を呼び出します。

    他の方法を使用してOSS-HDFSのエンドポイントを設定することもできます。 異なる方法を使用して構成されたエンドポイントの優先度は異なります。 詳細については、「付録1: OSS-HDFSのエンドポイントの設定に使用されるその他の方法」をご参照ください。

  5. Sparkを使用してOSS-HDFSにアクセスします。

    1. テーブルを作成します。

      テーブルtest_oss (c1文字列) の場所 "oss:// examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir/" を作成します。
    2. テーブルにデータを挿入します。

      テーブルtest_oss値 ("testdata") に挿入します。
    3. テーブル内のデータを照会します。

      select * from test_oss;