全部產品
Search
文件中心

E-MapReduce:Spark SQL作業配置

更新時間:Jan 22, 2025

本文介紹如何配置Spark SQL類型的作業。

前提條件

已建立好專案,詳情請參見專案管理

操作步驟

  1. 進入資料開發的專案列表頁面。
    1. 通過阿里雲帳號登入阿里雲E-MapReduce控制台
    2. 在頂部功能表列處,根據實際情況選擇地區和資源群組
    3. 單擊上方的資料開發頁簽。
  2. 單擊待編輯專案所在行的作業編輯
  3. 建立Spark SQL類型作業。
    1. 在頁面左側,在需要操作的檔案夾上單擊右鍵,選擇新增作業
    2. 新增作業對話方塊中,輸入作業名稱作業描述,從作業類型下拉式清單中選擇Spark SQL作業類型。
      說明 Spark SQL提交作業的模式預設是Yarn-client模式。
      此類型的作業,實際是通過以下方式提交的Spark SQL作業運行。
      spark-sql [options] [cli options] {SQL_CONTENT}                
      參數描述如下表。
      參數說明
      options作業設定面板的進階設定頁簽,單擊環境變數所在行的add表徵圖,添加環境變數SPARK_CLI_PARAMS,例如SPARK_CLI_PARAMS="--executor-memory 1g --executor-cores"
      cli options樣本如下:
      • -e <quoted-query-string> :表示運行引號內的SQL查詢語句。
      • -f <filename>:表示運行檔案中的SQL語句。
      SQL_CONTENT填寫的SQL語句。
    3. 單擊確定
  4. 編輯作業內容。
    1. 作業內容中,輸入Spark SQL語句。
      樣本如下。
      -- SQL語句樣本。
      -- SQL語句最大不能超過64 KB。
      show databases;
      show tables;
      -- 系統會自動為SELECT語句加上'limit 2000'的限制。
      select * from test1;
    2. 單擊儲存,作業內容編輯完成。