如何進行Spark作業開發 - AnalyticDB

AnalyticDB for MySQLSpark離線應用和流應用的開發方法相同。本文介紹如何進行Spark作業開發。

開發工具

您可以通過如下五種方式進行Spark Batch和Streaming應用開發。

範例程式碼

本文以讀取OSS資料為例，描述了Spark應用代碼的編寫方式，其中包括應用程式名稱、conf配置參數等通用參數，還包括Java、Scala、Python應用的特定配置參數。命令列參數格式為JSON格式。樣本如下：

 {
  "args": ["args0", "args1"],
  "name": "spark-oss-test",
  "file": "oss://<testBucketName>/jars/test/spark-examples-0.0.1-SNAPSHOT.jar",
  "className": "com.aliyun.spark.oss.SparkReadOss",
  "conf": {
    "spark.driver.resourceSpec": "medium",
    "spark.executor.resourceSpec": "medium",
    "spark.executor.instances": 2,
    "spark.adb.connectors": "oss"
  }
}

通用參數

參數名稱	是否必填	樣本值	使用說明
name	否	`"name": "spark-oss-test"`	Spark應用程式名稱。
file	Python/Java/Scala應用必填	`"file":"oss://<testBucketName>/jars/test/spark-examples-0.0.1-SNAPSHOT.jar"`	Spark應用主檔案的儲存路徑，檔案路徑需為絕對路徑。主檔案是入口類所在的JAR包或者Python的入口執行檔案。重要 Spark應用主檔案目前只支援儲存在OSS中。 OSS Bucket與AnalyticDB for MySQL叢集需要在同一地區。
files	否	`"files":["oss://<testBucketName>/path/to/files_name1","oss://<testBucketName>/path/to/files_name2"]`	Spark應用依賴的檔案資源，檔案會被下載到Driver和Executor進程的當前執行目錄下。支援設定檔別名，例如`oss://<testBucketName>/test/test1.txt#test1`，test1為檔案別名，您可以使用./test1或者./test1.txt訪問檔案。多個檔案中間用英文逗號（,）分隔。說明 files中包含名為`log4j.properties`的檔案時，Spark會使用該`log4j.properties`檔案作為日誌配置。 Spark應用所依賴的所有檔案須儲存在OSS中。
archives	否	`"archives":["oss://<testBucketName>/path/to/archives","oss://<testBucketName>/path/to/archives"]`	Spark應用依賴的壓縮包資源，目前支援.TAR.GZ尾碼。壓縮包會被解壓到當前Spark進程的目前的目錄下。支援設定檔別名，例如`oss://testBucketName/test/test1.tar.gz#test1`，test1為檔案別名。假設test2.txt是test1.tar.gz壓縮包中的檔案，您可以使用./test1/test2.txt或者./test1.tar.gz/test2.txt訪問解壓後的檔案。多個壓縮包中間使用英文逗號（,）分隔。說明 Spark應用所依賴的所有壓縮包須儲存在OSS中。壓縮包解壓縮失敗，任務會失敗。
conf	是	`"conf":{"spark.driver.resourceSpec": "medium",spark.executor.resourceSpec":"medium,"spark.executor.instances": 2,"spark.adb.connectors": "oss"}`	與開源Spark中的配置項基本一致，參數格式為`key: value`形式，多個參數之間以英文逗號（,）分隔。與開源Spark用法不一致的配置參數及AnalyticDB for MySQL特有的配置參數，請參見Spark應用配置參數說明。

Java應用參數

參數名稱	是否必填	樣本值	使用說明
args	否	`"args":["args0", "args1"]`	請根據業務需求，填寫使用JAR包時需要使用的參數。多個參數之間以英文逗號（,）分隔。
className	是	`"className":"com.aliyun.spark.oss.SparkReadOss"`	Java程式入口類名稱。
jars	否	`"jars":["oss://<testBucketName>/path/to/jar","oss://testBucketName/path/to/jar"]`	Spark應用依賴的JAR包，多個JAR包之間以英文逗號（,）分隔。需填寫JAR包檔案的絕對路徑。JAR包在運行時會被加入到Driver和Executor JVM的ClassPath裡面。重要 Spark應用所依賴的所有JAR包須儲存在OSS中。 OSS Bucket與AnalyticDB for MySQL叢集需要在同一地區。

Scala應用參數

參數名稱	是否必填	樣本值	使用說明
className	是	`"className":"com.aliyun.spark.oss.SparkReadOss"`	Scala程式入口類名稱。
jars	否	`"jars":["oss://<testBucketName>/path/to/jar","oss://testBucketName/path/to/jar"]`	Spark應用依賴的JAR包，多個JAR包之間以英文逗號（,）分隔。需填寫JAR包檔案的絕對路徑。JAR包在運行時會被加入到Driver和Executor JVM的ClassPath裡面。重要 Spark應用所依賴的所有JAR包須儲存在OSS中。 OSS Bucket與AnalyticDB for MySQL叢集需要在同一地區。

Python應用參數

參數名稱	是否必填	樣本值	使用說明
pyFiles	是	`"pyFiles":["oss://<testBucketName>/path/to/pyfiles","oss://<testBucketName>/path/to/pyfiles"]`	PySpark依賴的Python檔案，尾碼可以是ZIP、PY和EGG。如果依賴多個Python檔案，建議使用ZIP或者EGG壓縮包。您可以在Python代碼中以module方式引用Python檔案。多個壓縮包中間使用英文逗號（,）分隔。說明 Spark應用所依賴的所有Python檔案須儲存在OSS中。