若運行在獨享調度資源群組上的任務執行時需依賴第三方包,為保障任務可順利執行,您需要先通過該資源群組的營運助手功能,將相應的第三方包安裝至獨享調度資源群組。DataWorks的營運助手提供了多種內建的第三方包,可直接安裝使用,若內建的第三方包無法滿足您的業務需要,您也可通過Shell命令手動上傳所需的包或資源檔進行安裝。
前提條件
已建立獨享調度資源群組。僅獨享調度資源群組支援使用營運助手功能。建立獨享調度資源群組,詳情請參見新增和使用獨享調度資源群組。
已擁有AliyunDataWorksFullAccess或ModifyResourceGroup權限原則。授權詳情請參見產品及控制台許可權控制詳情:RAM Policy。
使用限制
營運助手功能的使用限制如下:
僅支援用於獨享調度資源群組,不支援用於獨享Data Integration資源群組、Serverless資源群組。
僅支援建立安裝第三方包的命令,不支援修改命令。
僅支援上傳不超過50M的資源至獨享調度資源群組。
說明對於超過50M的MaxCompute類型資源,您可通過DataWorks可視化方式上傳,詳情請參見建立並使用MaxCompute資源。
通過獨享調度資源群組的營運助手安裝的Python第三方包,僅支援在該獨享調度資源群組運行PyODPS任務時引用。
說明如需在MaxCompute的Python UDF中引用Python第三方包,請參見UDF樣本:Python UDF使用第三方包。
進入營運助手
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資源群組,進入資源群組列表頁面。
在獨享資源群組頁簽,找到用途為資料調度的資源群組,單擊資源群組後的表徵圖,選擇營運助手,進入所選資源群組的營運助手頁面。
您可根據需要建立命令,通過命令安裝執行任務所需的第三方包。
說明營運助手只能用於獨享調度資源群組,不能用於獨享Data Integration資源群組、Serverless資源群組。
安裝第三方包
建立用於安裝第三方包的命令。
安裝的第三方包可被當前資源群組運行調度任務時使用。在所選資源群組的營運助手頁面,單擊建立命令,可選擇使用捷徑或手動輸入方式建立命令。
方式一:捷徑
該方式用於安裝DataWorks提供的內建第三方包。
核心參數說明如下。
參數
描述
命令名稱
自訂名稱。
命令類型
選擇快捷安裝環境。
該方式下,DataWorks會根據所選的第三方包自動產生安裝該第三方包的Shell命令。
內建第三方包
選擇要安裝的第三方包及其對應版本。
DataWorks內建多種Python2、Python3、Yum類型的第三方包,您可根據需要選擇。常用的第三方包,例如:
Aliyun-python-sdk-core:阿里雲提供的Python SDK的核心庫,是與阿里雲的雲端服務進行互動時使用的基礎庫,提供了基本的API調用和認證功能。
NumPy:提供了高效能的多維陣列和數值計算功能,是進行科學計算和資料分析的基礎庫。
Pandas:提供了高效能、易用的資料結構和資料分析工具,用於處理和分析結構化資料。
更多支援的第三方包請參見實際的功能介面。
產生的Shell
DataWorks將根據您所選的安裝包,自動產生相應Shell命令。
後續可通過執行該命令,安裝相應的第三方包。
例如,選擇aliyun-python-sdk-core安裝包後,平台將自動產生安裝該第三方包的pip install aliyun-python-sdk-core命令。
逾時時間
命令執行的逾時時間,單位為秒。逾時後DataWorks會強制結束正在執行的命令。
方式二:手動輸入
若內建的第三方包無法滿足您的業務需要,則可手動輸入Shell命令上傳所需包或資源檔。
說明手動輸入方式無法使用PIP命令安裝第三方包。
參數
描述
命令名稱
自訂名稱。
命令類型
選擇手動輸入。
您需手動輸入上傳當地套件或資源檔的Shell命令。
命令內容
您需在此輸入需要執行的命令內容,例如:
yum install -y git
。說明通過手動輸入的命令執行時無法保證成功率。
資源上傳完成後,在資料開發(DataStudio)的節點任務中引用該資源時需要使用絕對路徑。
安裝目錄
配置待執行命令所在的目錄。DataWorks會將該目錄添加至白名單,保證該目錄可訪問。多個目錄之間使用英文分號(;)分隔。
說明可選擇安裝第三方包至/home/目錄、非/home/目錄。對於/home/目錄,僅支援存放待執行命令至獨享調度資源群組的/home/admin/usertools/tools/路徑下。
若未指定安裝目錄,將預設安裝至/home/admin/usertools/tools/路徑下。
逾時時間
命令執行的逾時時間,單位為秒。逾時後DataWorks會強制結束正在執行的命令。
單擊建立,完成建立。
執行命令。
命令建立完成後,您需在該資源群組的營運助手頁面,單擊所建立命令操作列的運行命令,安裝相應第三方包。安裝成功後,後續可使用該第三方包在當前資源群組中運行相關調度任務。
管理命令
您可在當前資源群組的營運助手頁面,對已建立的命令執行如下操作:
您也可單擊查看環境配置詳情,查看當前資源群組的整體環境配置情況。例如,已安裝的第三方包、第三方包的版本及狀態。
查看命令:查看命令的執行狀態、執行ID、命令內容等基本資料。
查看運行結果:查看命令運行成功或失敗,根據日誌分析運行失敗的原因並處理。
聯絡支援人員:如您遇到無法解決的問題,可根據介面指引加入DataWorks使用者交流群,聯絡支援人員解決。
後續操作
第三方包安裝完成後,使用當前獨享調度資源群組運行調度任務時便可引用該包。使用樣本參考如下: