使用自建Hadoop訪問OSS-HDFS -

OSS-HDFS服務是一款雲原生資料湖儲存產品。基於統一的中繼資料管理能力，在完全相容HDFS檔案系統介面的同時，提供充分的POSIX能力支援，能更好地滿足巨量資料和AI等領域的資料湖計算情境。本文介紹Hadoop如何通過JindoSDK訪問OSS-HDFS服務。

前提條件

已開通並授權訪問OSS-HDFS服務。具體操作，請參見開通OSS-HDFS服務。

什麼是OSS-HDFS服務

通過OSS-HDFS服務，無需對現有的Hadoop、Spark巨量資料分析應用做任何修改。通過簡單的配置即可像在原生HDFS中那樣管理和訪問資料，同時獲得OSS無限容量、彈性擴充、更高的安全性、可靠性和可用性支撐。

作為雲原生資料湖基礎，OSS-HDFS在滿足EB級資料分析、億級檔案管理服務、TB級輸送量的同時，全面融合巨量資料儲存生態，除提供Object Storage Service扁平命名空間之外，還提供了階層命名空間服務。階層命名空間支援將對象組織到一個目錄階層中進行管理，並能通過統一中繼資料管理能力進行內部自動轉換。對Hadoop使用者而言，無需做資料複製或轉換就可以實現像訪問本地HDFS一樣高效的資料訪問，極大提升整體作業效能，降低了維護成本。

關於OSS-HDFS服務的應用情境、服務特性、功能特性等更多資訊，請參見什麼是OSS-HDFS服務。

步驟一：建立Virtual Private Cloud並添加Elastic Compute Service執行個體

建立允許內網訪問OSS-HDFS服務的Virtual Private Cloud。
1. 登入專用網路管理主控台。
2. 在專用網路頁面，單擊建立專用網路。
  建立Virtual Private Cloud時，需確保建立的VPC與待開啟OSS-HDFS服務的Bucket位於相同的地區（Region）。建立VPC的具體操作，請參見建立專用網路和交換器。
添加Elastic Compute Service執行個體。
1. 單擊已建立的VPC ID，然後單擊資源管理頁簽。
2. 在包含基礎雲資源地區，單擊Elastic Compute Service右側的。
3. 在執行個體頁面，單擊建立執行個體。
  建立ECS執行個體時，需確保該ECS執行個體與已建立的Virtual Private Cloud位於相同地區。建立ECS執行個體的具體操作，請參見選購ECS執行個體。

步驟二：建立Hadoop運行環境

安裝Java環境。
1. 在已建立的ECS樣本右側，單擊遠端連線。
  關於遠端連線ECS執行個體的具體操作，請參見ECS遠端連線方式概述。
2. 檢查JDK版本。
```
java -version
```
3. 可選：如果JDK為1.8.0以下版本，請卸載已有的JDK。如果JDK為1.8.0或以上版本，請跳過此步驟。
```
rpm -qa | grep java | xargs rpm -e --nodeps
```
4. 安裝Java。
```
sudo yum install java-1.8.0-openjdk* -y
```
5. 執行以下命令，開啟設定檔。
```
vim /etc/profile
```
6. 添加環境變數。
  如果提示當前JDK Path不存在，請前往/usr/lib/jvm/尋找java-1.8.0-openjdk。
```
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib/rt.jar
export PATH=$PATH:$JAVA_HOME/bin
```
7. 使環境變數生效。
```
source /etc/profile
```

啟用SSH服務。

安裝SSH服務。

sudo yum install -y openssh-clients openssh-server

啟用SSH服務。

systemctl enable sshd && systemctl start sshd

產生SSH密鑰，並將產生的密鑰添加到信任清單。

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

安裝Hadoop。

下載Hadoop安裝包。
以下載3.4.0版本的Hadoop安裝包為例。如使用其他版本的Hadoop，請替換為對應的Hadoop安裝包名稱。如何擷取Hadoop安裝包，請參見Hadoop。
```
wget https://downloads.apache.org/hadoop/common/hadoop-3.4.0/hadoop-3.4.0.tar.gz
```
解壓安裝包。
```
tar xzf hadoop-3.4.0.tar.gz
```
將安裝包移動到常用位置。
```
mv hadoop-3.4.0 /usr/local/hadoop
```

配置環境變數。

配置Hadoop環境變數。

vim /etc/profile
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
source /etc/profile

更新Hadoop設定檔中的HADOOP_HOME。

cd $HADOOP_HOME
vim etc/hadoop/hadoop-env.sh

將${JAVA_HOME}替換為實際路徑。

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

可選：如果提示目錄不存在，請執行以下命令，使環境變數生效。
```
cd $HADOOP_HOME/etc/hadoop
```

更新設定檔core-site.xml以及hdfs-site.xml。

更新設定檔core-site.xml並添加屬性。

<configuration>
  <!-- 指定HDFS中NameNode的地址。-->
  <property>
      <name>fs.defaultFS</name>
      <!--替換為主機名稱或localhost。-->
      <value>hdfs://localhost:9000</value>
  </property>

  <!--將Hadoop臨時目錄修改為自訂目錄。-->
  <property>
      <name>hadoop.tmp.dir</name>
      <!--admin操作時完成目錄授權sudo chown -R admin:admin /opt/module/hadoop-3.4.0-->
      <value>/opt/module/hadoop-3.4.0/data/tmp</value>
  </property>
</configuration>

更新設定檔hdfs-site.xml並添加屬性。

<configuration>
  <!-- 指定HDFS副本的數量。-->
  <property>
      <name>dfs.replication</name>
      <value>1</value>
  </property>
</configuration>

格式檔案結構。
```
hdfs namenode -format
```
啟動HDFS。
啟動HDFS分為啟動NameNode、DataNode和Secondary NameNode三個步驟。
1. 啟動HDFS。
```
cd /usr/local/hadoop/
sbin/start-dfs.sh
```
2. 查看進程。
```
jps
```
  返回結果如下：
  完成上述步驟後，即可建立HDFS守護進程。由於HDFS本身具備HTTP面板，您可以通過瀏覽器訪問http://{ip}:9870，查看HDFS面板以及詳細資料。

測試Hadoop是否安裝成功。
執行hadoop version命令，如果正常返回版本資訊，表明安裝成功。

步驟三：切換本地HDFS到雲上OSS-HDFS服務

下載JindoSDK JAR包。
1. 切換至目標目錄。
```
cd /usr/lib/
```
2. 下載最新版本的JindoSDK JAR包。下載地址，請參見GitHub。
3. 解壓JindoSDK JAR包。
```
tar zxvf jindosdk-x.x.x-linux.tar.gz
```
  說明
  x.x.x表示JindoSDK JAR包版本號碼。

配置環境變數。

編輯設定檔。
```
vim /etc/profile
```

配置環境變數。

export JINDOSDK_HOME=/usr/lib/jindosdk-x.x.x-linux

配置HADOOP_CLASSPATH。

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:${JINDOSDK_HOME}/lib/*

執行以下命令使環境變數配置生效。
```
. /etc/profile
```

配置JindoSDK DLS實作類別及AccessKey。

將JindoSDK DLS實作類別配置到Hadoop的core-site.xml中。

<configuration>
    <property>
        <name>fs.AbstractFileSystem.oss.impl</name>
        <value>com.aliyun.jindodata.oss.JindoOSS</value>
    </property>

    <property>
        <name>fs.oss.impl</name>
        <value>com.aliyun.jindodata.oss.JindoOssFileSystem</value>
    </property>
</configuration>

將已開啟HDFS服務的Bucket對應的accessKeyId、accessKeySecret預先配置在Hadoop的core-site.xml中。

<configuration>
    <property>
        <name>fs.oss.accessKeyId</name>
        <value>xxx</value>
    </property>

    <property>
        <name>fs.oss.accessKeySecret</name>
        <value>xxx</value>
    </property>
</configuration>

配置OSS-HDFS服務的Endpoint。
訪問OSS-HDFS服務時需要配置Endpoint。推薦訪問路徑格式為oss://<Bucket>.<Endpoint>/<Object>，例如oss://examplebucket.cn-shanghai.oss-dls.aliyuncs.com/exampleobject.txt。配置完成後，JindoSDK會根據訪問路徑中的Endpoint訪問對應的OSS-HDFS服務介面。
除上述提到的在訪問路徑中指定Endpoint的方式以外，您還可以通過其他配置OSS-HDFS服務的Endpoint。更多資訊，請參見配置Endpoint的其他方式。

步驟四：訪問OSS-HDFS服務

建立目錄
在目標儲存空間examplebucket下建立名為dir/的目錄，樣本如下：
```
hdfs dfs -mkdir oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir/
```

上傳檔案

將本地examplefile.txt檔案上傳至目標儲存空間examplebucket，樣本如下：

hdfs dfs -put /root/workspace/examplefile.txt oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/examplefile.txt

查看目錄資訊
查看目標儲存空間examplebucket下目錄dir/的資訊，樣本如下：
```
hdfs dfs -ls oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/dir/
```
查看檔案資訊
查看目標儲存空間examplebucket下檔案examplefile.txt的資訊，樣本如下：
```
hdfs dfs -ls oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/examplefile.txt
```
查看檔案內容
查看目標儲存空間examplebucket下檔案examplefile.txt的內容，樣本如下：
重要
執行以下命令後，檔案內容將以純文字形式列印在螢幕上。如果檔案存在特定格式的編碼，請使用HDFS的Java API讀取檔案內容，然後進行解碼操作後即可擷取對應的檔案內容。
```
hdfs dfs -cat oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/examplefile.txt
```
拷貝目錄或檔案
將目標儲存空間examplebucket下根目錄subdir1拷貝到目錄subdir2下，且根目錄subdir1所在的位置、根目錄下的檔案和子目錄結構和內容保持不變，樣本如下：
```
hdfs dfs -cp oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/subdir1/  oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/subdir2/subdir1/
```
移動目錄或檔案
將目標儲存空間根目錄srcdir及其包含的檔案或者子目錄移動至另一個根目錄destdir下，樣本如下：
```
hdfs dfs -mv oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/srcdir/  oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/destdir/
```
下載檔案
將目標儲存空間examplebucket下的exampleobject.txt下載到本地根目錄檔案夾/tmp下，樣本如下：
```
hdfs dfs -get oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/exampleobject.txt  /tmp/
```
刪除目錄或檔案
刪除目標儲存空間examplebucket下目錄destfolder/及其目錄下的所有檔案，樣本如下：
```
hdfs dfs -rm oss://examplebucket.cn-hangzhou.oss-dls.aliyuncs.com/destfolder/
```