全部產品
Search
文件中心

E-MapReduce:Notebook開發快速入門

更新時間:Jan 17, 2025

EMR Serverless Spark支援通過Notebook進行互動式開發。本文帶您快速體驗Notebook的建立、運行等操作。

前提條件

操作步驟

步驟一:準備測試檔案

本快速入門為了帶您快速熟悉Notebook任務,為您提供了測試檔案,您可以直接下載待後續步驟使用。

下載測試檔案。

說明

employee.csv檔案中定義了一個包含員工姓名、部門和薪水的資料列表。

步驟二:上傳測試檔案

上傳資料檔案(employee.csv)到阿里雲Object Storage Service控制台,詳情請參見檔案上傳

步驟三:開發並運行Notebook

  1. 在EMR Serverless Spark頁面,單擊左側的資料開發

  2. 建立Notebook。

    1. 開發目錄頁簽下,單擊建立

    2. 在彈出的對話方塊中,輸入名稱,類型使用Python > Notebook,然後單擊確定

  3. 在右上方選擇已建立並啟動的Notebook會話執行個體。

    您也可以在下拉式清單中選擇建立Notebook會話,建立一個Notebook會話執行個體。關於Notebook會話更多介紹,請參見管理Notebook會話

    說明

    當前Notebook會話執行個體同一時間僅支援被單個Notebook佔用,如果當前無可用Notebook會話執行個體,您可以在Notebook會話下拉式清單中解除綁定Notebook與Notebook會話執行個體,或建立Notebook會話執行個體。

  4. 資料處理與可視化。

    運行PySpark作業

    1. 拷貝如下代碼到新增的Notebook的Python儲存格中。

      # 建立一個簡單的DataFrame,其中OSS路徑需要替換為步驟二中上傳的檔案路徑。
      df = spark.read.option("delimiter", ",").option("header", True).csv("oss://path/to/file")
      # 顯示DataFrame的前幾行
      df.show(5)
      # 執行一個簡單的彙總操作:計算每個部門的總薪資
      sum_salary_per_department = df.groupBy("department").agg({"salary": "sum"}).show()
    2. 單擊運行所有儲存格,執行建立的Notebook。

      您也可以使用不同的儲存格,然後單擊儲存格前面的image表徵圖。

      image

    3. (可選)查看Spark UI。

      您可以在會話下拉式清單中,將滑鼠移至上方在當前任務的Notebook會話執行個體的image上,然後單擊Spark UI跳轉至Spark Jobs頁面,可以查看Spark任務的資訊。

      image

    通過第三方庫進行可視化分析

    說明

    Notebook會話已預裝matplotlib、numpy、pandas庫,如果需要使用其他第三方庫,請參見在Notebook中使用Python第三方庫

    1. 使用matplotlib庫進行資料視覺效果。

      import matplotlib.pyplot as plt
      
      l = sc.parallelize(range(20)).collect()
      plt.plot(l)
      plt.ylabel('some numbers')
      plt.show()
    2. 單擊運行所有儲存格,執行建立的Notebook。

      您也可以使用不同的儲存格,然後單擊儲存格前面的image表徵圖。

      image

步驟四:發布Notebook

  1. 運行完成後,單擊右上方的發布

  2. 在發布對話方塊,輸入發布資訊,然後單擊確定,儲存為一個版本。