本文介紹如何配置Spark SQL類型的作業。
前提條件
已建立好專案,詳情請參見專案管理。操作步驟
- 進入資料開發的專案列表頁面。
- 通過阿里雲帳號登入阿里雲E-MapReduce控制台。
- 在頂部功能表列處,根據實際情況選擇地區和資源群組。
- 單擊上方的資料開發頁簽。
- 單擊待編輯專案所在行的作業編輯。
- 建立Spark SQL類型作業。
- 在頁面左側,在需要操作的檔案夾上單擊右鍵,選擇新增作業。
- 在新增作業對話方塊中,輸入作業名稱和作業描述,從作業類型下拉式清單中選擇Spark SQL作業類型。說明 Spark SQL提交作業的模式預設是Yarn-client模式。此類型的作業,實際是通過以下方式提交的Spark SQL作業運行。
spark-sql [options] [cli options] {SQL_CONTENT}
參數描述如下表。參數 說明 options 在作業設定面板的進階設定頁簽,單擊環境變數所在行的 表徵圖,添加環境變數SPARK_CLI_PARAMS,例如
SPARK_CLI_PARAMS="--executor-memory 1g --executor-cores"
。cli options 樣本如下: -e <quoted-query-string>
:表示運行引號內的SQL查詢語句。-f <filename>
:表示運行檔案中的SQL語句。
SQL_CONTENT 填寫的SQL語句。 - 單擊確定。
- 編輯作業內容。
- 在作業內容中,輸入Spark SQL語句。樣本如下。
-- SQL語句樣本。 -- SQL語句最大不能超過64 KB。 show databases; show tables; -- 系統會自動為SELECT語句加上'limit 2000'的限制。 select * from test1;
- 單擊儲存,作業內容編輯完成。
- 在作業內容中,輸入Spark SQL語句。