全部產品
Search
文件中心

E-MapReduce:PySpark開發快速入門

更新時間:Jan 21, 2025

您可以自行編寫並構建包含商務邏輯的Python指令碼,上傳該指令碼後,即可便捷地進行PySpark開發。本文通過一個樣本,為您示範如何進行PySpark開發。

前提條件

操作步驟

步驟一:準備測試檔案

在EMR Serverless Spark中,支援使用本地或獨立的開發平台完成Python檔案的開發,並將任務提交至EMR Serverless Spark中運行。

步驟二:上傳測試檔案

  1. 上傳Python檔案到EMR Serverless Spark。

    1. 進入資源上傳頁面。

      1. 登入E-MapReduce控制台

      2. 在左側導覽列,選擇EMR Serverless > Spark

      3. Spark頁面,單擊目標工作空間名稱。

      4. 在EMR Serverless Spark頁面,單擊左側導覽列中的檔案管理

    2. 檔案管理頁面,單擊上傳檔案

    3. 上傳檔案對話方塊中,單擊待上傳檔案地區選取項目Python檔案,或直接拖拽Python檔案到待上傳檔案地區。

  2. 上傳資料檔案到阿里雲Object Storage Service控制台,詳情請參見檔案上傳

步驟三:開發並運行任務

  1. 在EMR Serverless Spark頁面,單擊左側的資料開發

  2. 單擊建立

  3. 在彈出的對話方塊中,輸入名稱,類型使用Application(批任務) > PySpark,單擊確定

  4. 在右上方選擇隊列。

    添加隊列的具體操作,請參見管理資源隊列

  5. 在建立的開發頁簽中,配置以下資訊,其餘參數無需配置,然後單擊運行

    參數

    說明

    主Python資源

    選擇前一個步驟中在檔案管理頁面上傳的Python檔案。

    運行參數

    填寫資料檔案上傳到OSS的路徑。例如,oss://<yourBucketName>/employee.csv。

  6. 運行任務後,在下方的運行記錄地區,單擊任務操作列的詳情

  7. 任務歷史中的開發工作單位頁面,您可以查看相關的日誌資訊。

    image

步驟四:發布任務

重要

發行的任務可以作為工作流程節點的任務。

  1. 任務運行完成後,單擊右側的發布

  2. 在任務發布對話方塊中,您可以輸入發布資訊,然後單擊確定

步驟五:查看Spark UI

任務正常運行後,您可以在Spark UI上查看任務的運行情況。

  1. 在左側導覽列,單擊任務歷史

  2. 單擊開發工作單位

  3. 開發工作單位頁面,單擊目標任務操作列的詳情

  4. 任務總覽頁簽,單擊Spark UI。

    image

  5. 在Spark Jobs頁面,您可以查看任務詳情。

    image

相關文檔