全部產品

E-MapReduce：PySpark開發快速入門

更新時間：Jan 21, 2025

您可以自行編寫並構建包含商務邏輯的Python指令碼，上傳該指令碼後，即可便捷地進行PySpark開發。本文通過一個樣本，為您示範如何進行PySpark開發。

前提條件

已準備阿里雲帳號，詳情請參見帳號註冊。

已完成角色授權，詳情請參見阿里雲帳號角色授權。
已建立工作空間，詳情請參見建立工作空間。

操作步驟

步驟一：準備測試檔案

在EMR Serverless Spark中，支援使用本地或獨立的開發平台完成Python檔案的開發，並將任務提交至EMR Serverless Spark中運行。

步驟二：上傳測試檔案

上傳Python檔案到EMR Serverless Spark。
1. 進入資源上傳頁面。
  1. 登入E-MapReduce控制台。
  2. 在左側導覽列，選擇EMR Serverless > Spark。
  3. 在Spark頁面，單擊目標工作空間名稱。
  4. 在EMR Serverless Spark頁面，單擊左側導覽列中的檔案管理。
2. 在檔案管理頁面，單擊上傳檔案。
3. 在上傳檔案對話方塊中，單擊待上傳檔案地區選取項目Python檔案，或直接拖拽Python檔案到待上傳檔案地區。
上傳資料檔案到阿里雲Object Storage Service控制台，詳情請參見檔案上傳。

步驟三：開發並運行任務

在EMR Serverless Spark頁面，單擊左側的資料開發。
單擊建立。
在彈出的對話方塊中，輸入名稱，類型使用Application（批任務） > PySpark，單擊確定。
在右上方選擇隊列。
添加隊列的具體操作，請參見管理資源隊列。
在建立的開發頁簽中，配置以下資訊，其餘參數無需配置，然後單擊運行。
參數
說明
主Python資源
選擇前一個步驟中在檔案管理頁面上傳的Python檔案。
運行參數
填寫資料檔案上傳到OSS的路徑。例如，oss://<yourBucketName>/employee.csv。
運行任務後，在下方的運行記錄地區，單擊任務操作列的詳情。
在任務歷史中的開發工作單位頁面，您可以查看相關的日誌資訊。

步驟四：發布任務

重要

發行的任務可以作為工作流程節點的任務。

任務運行完成後，單擊右側的發布。
在任務發布對話方塊中，您可以輸入發布資訊，然後單擊確定。

步驟五：查看Spark UI

任務正常運行後，您可以在Spark UI上查看任務的運行情況。

在左側導覽列，單擊任務歷史。
單擊開發工作單位。
在開發工作單位頁面，單擊目標任務操作列的詳情。
在任務總覽頁簽，單擊Spark UI。
在Spark Jobs頁面，您可以查看任務詳情。

相關文檔

任務發布完成後，您可以在工作流程調度中使用，詳情請參見管理工作流程。任務編排完整的開發流程樣本，請參見SQL開發快速入門。
PySpark流任務的開發流程樣本，請參見通過Serverless Spark提交PySpark流任務。