您可以自行編寫並構建包含商務邏輯的Python指令碼,上傳該指令碼後,即可便捷地進行PySpark開發。本文通過一個樣本,為您示範如何進行PySpark開發。
前提條件
已準備阿里雲帳號,詳情請參見帳號註冊。
操作步驟
步驟一:準備測試檔案
在EMR Serverless Spark中,支援使用本地或獨立的開發平台完成Python檔案的開發,並將任務提交至EMR Serverless Spark中運行。
步驟二:上傳測試檔案
上傳Python檔案到EMR Serverless Spark。
進入資源上傳頁面。
在左側導覽列,選擇
。在Spark頁面,單擊目標工作空間名稱。
在EMR Serverless Spark頁面,單擊左側導覽列中的檔案管理。
在檔案管理頁面,單擊上傳檔案。
在上傳檔案對話方塊中,單擊待上傳檔案地區選取項目Python檔案,或直接拖拽Python檔案到待上傳檔案地區。
上傳資料檔案到阿里雲Object Storage Service控制台,詳情請參見檔案上傳。
步驟三:開發並運行任務
在EMR Serverless Spark頁面,單擊左側的資料開發。
單擊建立。
在彈出的對話方塊中,輸入名稱,類型使用
,單擊確定。在右上方選擇隊列。
添加隊列的具體操作,請參見管理資源隊列。
在建立的開發頁簽中,配置以下資訊,其餘參數無需配置,然後單擊運行。
參數
說明
主Python資源
選擇前一個步驟中在檔案管理頁面上傳的Python檔案。
運行參數
填寫資料檔案上傳到OSS的路徑。例如,oss://<yourBucketName>/employee.csv。
運行任務後,在下方的運行記錄地區,單擊任務操作列的詳情。
在任務歷史中的開發工作單位頁面,您可以查看相關的日誌資訊。
步驟四:發布任務
發行的任務可以作為工作流程節點的任務。
任務運行完成後,單擊右側的發布。
在任務發布對話方塊中,您可以輸入發布資訊,然後單擊確定。
步驟五:查看Spark UI
任務正常運行後,您可以在Spark UI上查看任務的運行情況。
在左側導覽列,單擊任務歷史。
單擊開發工作單位。
在開發工作單位頁面,單擊目標任務操作列的詳情。
在任務總覽頁簽,單擊Spark UI。
在Spark Jobs頁面,您可以查看任務詳情。
相關文檔
任務發布完成後,您可以在工作流程調度中使用,詳情請參見管理工作流程。任務編排完整的開發流程樣本,請參見SQL開發快速入門。
PySpark流任務的開發流程樣本,請參見通過Serverless Spark提交PySpark流任務。