全部產品
Search
文件中心

Data Lake Formation:資料探索簡介

更新時間:Oct 25, 2024

資料探索是一種線上的互動式查詢服務,開通即用。它是完全託管的,並且具備了高效能、彈性、易用等特點,無需申請任何資源即可直接使用,且代碼運行環境歸屬於使用者。使用者可以對入湖後的資料使用Spark SQL快速的進行資料探索,以便對湖內資料進行審核、品質檢查、分類等。支援資料湖內多種儲存格式,包括Delta、Hudi、CSV、Parquet、JSON、ORC等資料格式。

準備工作

  1. 已開通OSS。

  2. 已開通DLF,並建立了中繼資料庫

  3. 通過中繼資料發現 入湖任務管理 或者API等方式建立了中繼資料表。

  4. 擁有AliyunDLFFullAccess策略許可權。

執行查詢

  1. 登入資料湖構建控制台,在左側菜單中選擇資料探索

  2. 左側資料庫/表地區,會列舉出當前賬戶下所有中繼資料庫和中繼資料表。您可以在此地區查看中繼資料表的基礎資訊,或者產生資料預覽SQL語句。

  3. 在右側SQL編輯器地區,輸入SQL語句。本功能基於EMR Spark 2.4版本,更多特性詳情請參見Spark SQL Guide。樣本如下:

    -- SQL語句樣本
    show databases;
  4. 單擊運行(或快速鍵F8),下方會展示查詢進度狀態,當查詢完畢時會直接顯示查詢結果。查詢結果會分頁展示,受前端限制目前最多展示10000條資料。如需擷取全部查詢結果,可以在配置儲存路徑之後進入OSS查看,或直接點擊下載。

    重要

    DLF-Spark SQL不會在您的SQL語句後面自動加limit限制,請避免不必要的全表掃描,以免造成資源浪費。

    image.png

    說明

    使用限制:

    • SQL執行逾時時間:60分鐘。

    • SQL長度限制:不超過6000字元。

    • 查詢結果展示:最多10000行。

    • 同一個帳號,最大使用Spark Driver記憶體:4G。

    • 同一個帳號,最大使用CU限制:200CU (1CU=1核4GB)。

結果路徑設定

您可以通過路徑設定,把每次查詢結果儲存在OSS上,以便於全量結果的下載和歸檔。僅當設定了儲存路徑之後,才可以使用結果下載功能。儲存的結果檔案沒有時間限制。

  1. 在左側菜單中選擇資料探索,單擊右上方的路徑設定

  2. 在彈出的OSS輸入框中,選擇用於儲存查詢結果的OSS路徑,單擊確定

  3. 設定成功之後,執行的查詢結果會自動全量寫入您設定的OSS路徑中,目前預設以CSV格式儲存。如果您的查詢結果很大時,下載匯出可能需要幾分鐘,請耐心等待。

儲存查詢

對於常用的查詢,您可以直接儲存。

  1. 在SQL編輯器中輸入SQL語句,單擊儲存

  2. 在彈出的輸入框中,輸入本次儲存的查詢名稱。

  3. 儲存成功後,您可以在下方的已存查詢中,恢複儲存過的查詢。