如果需要快速地對資料進行查詢與分析,您可以使用SQL語句查詢MaxCompute、EMR Hive、Hologres等資料來源。本文為您介紹如何通過SQL語句查詢資料來源。
DataWorks推薦您體驗新版資料分析,以獲得最新功能和更好體驗。
支援的資料來源
SQL查詢支援的資料來源包含MaxCompute、Hologres、EMR、CDH、StarRocks、ClickHouse、SelectDB、Doris、AnalyticDB for MySQL3.0、AnalyticDB for PostgreSQL、Tablestore、MySQL、PostgreSQL、Oracle、SQL Server。
目前僅支援添加至工作空間的資料來源。
資料來源許可權說明
資料來源範圍
僅支援查詢有許可權的工作空間內的資料來源資料,因此您需要先聯絡管理員將您添加為工作空間的資料分析師、模型設計師、開發、營運、空間管理員或專案所有者。
資料來源存取權限
資料來源訪問支援以下兩種身份模式訪問。
訪問身份模式 | 模式說明 | 支援資料來源 | 授權操作 |
執行者身份 | 當前登入DataWorks的阿里雲帳號身份。 | MaxCompute和Hologres。 | 讓指定MaxCompute專案或者Hologres執行個體的管理者,授權您成員存取權限。 |
資料來源預設訪問身份 | 建立資料來源時配置的訪問身份。 | 不限資料來源。 | 若您當前登入帳號非資料來源預設訪問身份時,需讓擁有工作空間管理員許可權的使用者為您當前登入的雲帳號授權。 |
如果MaxCompute專案空間開啟了白名單存取控制,請在MaxCompute專案IP白名單添加資料分析白名單。
功能入口
登入DataWorks資料分析,切換至目標地區後,單擊進入資料分析頁面。
若在導覽列看到前往新版資料分析,則表示已進入舊版資料分析頁面。
(不推薦)若在導覽列看到返回舊版資料分析,單擊切換返回舊版資料分析頁面。
步驟一:添加目錄
支援您將系統推薦目錄及已授權的資料來源下的資料表添加至目錄。添加為目錄後您可快速查看相應目錄下資料表,支援查看錶結構並快速產生查詢SQL。
步驟二:建立SQL查詢
基於資料目錄查詢
完成資料目錄添加後,相應資料集將展示在左側分類樹中。
在左側分類樹中,單擊開啟已添加資料集(例如,我的MaxCompute表)。
右擊待分析表的表名,選擇浮窗中的產生SQL語句,即可快速產生基於該表的推薦SQL語句的臨時檔案。
按需調整SQL語句,並儲存臨時檔案至我的檔案。
基於資料來源查詢
在左側分類樹中,滑鼠懸浮到我的檔案,單擊右側的
按鈕,建立檔案。在建立檔案中編寫SQL查詢語句,並儲存至我的檔案。
說明在進行SQL編輯時,DataWorks將在代碼中自動補齊在MaxCompute中有許可權的表。
基於分享SQL查詢
在左側分類樹中單擊他人檔案,展示來自別人分享出來的SQL檔案。單擊SQL檔案,在右側詳情頁可複製SQL。
基於公用資料集查詢
將公用資料集添加至目錄後,可單擊具體資料集,在右側詳情頁的頂部欄可選擇不同引擎產生SQL語句。您可用公用資料集進行測試。
步驟三:配置查詢引擎並執行
單擊SQL詳情頁面右上方的
按鈕,配置SQL查詢引擎。配置項
說明
工作空間
執行引擎所在的工作空間。
重要請確保您擁有工作空間的存取權限,否則請聯絡工作空間管理員幫您添加為空白間成員。
資料來源類型
執行引擎類型和名稱。
重要當SQL語句中未指定具體專案時,執行引擎即為預設資料來源。
資料來源名稱
訪問身份模式
選取查詢資料時採用哪種訪問模式進行SQL查詢:
執行者身份:僅支援MaxCompute和Hologres引擎。當您為MaxCompute專案或Hologres執行個體的成員擁有Select許可權時,推薦選擇。
資料來源預設訪問身份:若您當前帳號和建立該資料來源時設定的預設訪問身份不一致,請授權當前帳號該身份。
完成SQL編寫之後,您可直接全文運行或者選中部分運行。點擊運行按鈕右側的下拉表徵圖
,即可切換運行模式,可按照不同情境選擇不同模式。MaxCompute SQL運行前,將展示預計費用。您也可單擊SQL檔案上方工具列進行預估。
運行模式
使用者選擇情境
觸發條件
適用引擎
查詢模式 (LIMIT 10000)
快速預覽資料、驗證查詢邏輯。適合只想看少量樣本結果,進行初步資料探索的情境。
查詢結果展示 ≤ 10000 條且 ≤ 10MB
不限制
查詢模式 (全量資料)
擷取完整結果集進行分析或匯出。當需要處理和查看所有資料時,系統會自動觸發此模式。
查詢結果展示 > 10000 條或 > 10MB
不限制
暫存資料表模式
在多步複雜查詢中複用結果。將一個查詢的產出作為下一步查詢的輸入,提高開發和調試效率。
查詢結果展示 ≤ 10000 條且 ≤ 10MB,並自動寫入暫存資料表
僅 MaxCompute
SQL執行完成後,您可在查詢結果頁面查看作業記錄、運行結果以及查詢結果對應的SQL內容。
可點擊查詢結果右上方按鈕,切換頁面配置為左右布局或者上下布局。
步驟四:查詢結果可視化
在查詢結果左側工具列,點擊按鈕可將結果自動產生可視化圖表。
您可單擊圖表上方的Copilot按鈕,體驗DataWorks Copilot 代碼編程助手能力。
步驟五:匯出與分享
若您有將資料匯出到本地後再匯入到其他資料來源的需求,建議通過Data Integration的離線同步任務進行同步,從而實現更高效、穩定的資料移轉與同步。
SQL查詢結果支援匯出如下形式:
本地檔案:將查詢結果以CSV、TXT、XLS格式下載至本地。關鍵說明如下:
說明項
具體描述
下載限制
重要若不出現該選項,請參見查詢結果展示或下載受限?進行處理。
下載範圍
您可選擇下載僅表格中展示資料或全部資料。
僅表格中展示資料:僅下載當前頁面展示的資料,預設最多為
10000條。全部資料:匯出限制範圍內所查詢的全部結果資料。
下載方式
支援審批下載和免審批下載。
審批下載:支援您通過設定風險識別規則來識別下載資料操作行為中的風險。下載資料時,需提交下載審批申請,以確保資料使用的合規性和安全性。
說明僅DataWorks企業版支援設定並開啟風險識別規則。
免審批下載:預設為免審批下載,在下載過程中無需進行許可權申請。
Object Storage Service:將查詢結果以指定格式(如CSV、Parquet)匯出至阿里雲Object Storage Service(Object Storage Service)空間,適用於巨量資料量歸檔或與其他雲產品整合的情境。
首次使用時,您需要為DataWorks進行授權,以允許其訪問您的OSS資源。請在檔案路徑下拉框中,單擊提示資訊中的一鍵授權連結,根據頁面指引完成RAM授權。
配置項
說明
檔案路徑
點擊右側檔案夾按鈕,選擇您希望儲存結果檔案的OSS Bucket及目錄。
檔案名稱
系統將自動產生一個檔案名稱,您也可以手動修改。
文本類型
選擇匯出的檔案格式。支援
csv、text、orc、parquet。分隔字元
指定列與列之間的分隔字元號。預設為英文逗號(
,)。編碼格式
選擇檔案的編碼格式,例如
UTF-8、GBK等。CU
為本次匯出任務配置計算資源單元(CU)的數量。預設值為1 CU。
資源群組
選擇用於執行本次匯出任務的Serverless資源群組。當不選時,將會預設使用資料分析>系統管理中設定的Data Integration資源群組。
配置完成後,單擊確定即可啟動匯出任務。您可以在任務運行頁面查看匯出進度、作業記錄和配置詳情。任務成功後,可進入OSS控制台,將已經匯出的目標檔案下載到本地。
MaxCompute表:無需將資料下載至本地再傳至MaxCompute表。您可根據需要設定表的生命週期。
僅當查詢MaxCompute引擎內容時,出現該選項。
DingTalk表格:支援匯出至DingTalk表格文檔。
更多操作
SQL檔案版本管理
在SQL檔案編輯頁面,您也可單擊上方工具列來查看自動儲存的代碼和手動儲存代碼間差異,並選擇需要的版本儲存。
程式碼搜尋
在左側分類樹上方,單擊
,您可以輸入關鍵字進行程式碼搜尋。該功能僅限DataWorks標準版及以上使用。
查看運行歷史
在左側分類樹上方,單擊
查看SQL查詢歷史執行記錄。
常見問題
如何授權資料來源預設訪問身份?
進入資訊安全中心。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入資訊安全中心。
在左側導覽列單擊,進入資料分析許可權控制頁面。
切換工作空間,找到目標資料來源,單擊右側授權按鈕進行授權。

SQL查詢執行報錯?
如在執行過程中遇到This node can only run on exclusive resource groups相關報錯,您需在中為對應引擎配置調度資源群組和Data Integration資源群組。
查詢結果展示或下載受限?
SQL查詢結果僅支援展示部分,根據如下操作將展示結果限制調整到最大。同時,可進行下載能力的管控。更多詳情請參見資料查詢與分析管控。
進入資訊安全中心。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入資訊安全中心。
在左側導覽列單擊,進入資料分析許可權控制頁面。
切換至查詢結果管控頁簽,調整單次展示記錄上限、單次複製記錄上限、單次下載記錄上限、允許下載。

按鈕,進行添加目錄。