全部產品
Search
文件中心

Data Lake Analytics - Deprecated:通過元資訊發現功能查詢並分析OSS資料

更新時間:Jul 06, 2024

本文檔將以通過DLA的元資訊發現功能查詢並分析OSS資料為例,協助您快速掌握DLA的基本使用流程。

前提條件

登入阿里雲帳號並完成實名認證。
說明 如果您還沒有建立阿里雲帳號,系統會在您開通雲原生資料湖分析服務時提示您註冊帳號。

操作步驟

  1. 開通雲原生資料湖分析服務
  2. 登入OSS管理主控台,上傳檔案到OSS,具體操作請參見控制台上傳檔案
    例如將supplier_with_header.csv檔案上傳到OSS的指定目錄oss://alibaba-crawler/schema1/supply_ceshi/
  3. 登入資料湖分析管理主控台,在左側導覽列單擊資料湖管理 > 元資訊發現
  4. 元資訊發現頁面的OSS資料來源地區,單擊進入嚮導
    oss發現1
  5. OSS資料來源頁簽的資料來源配置調度配置目標中繼資料配置地區,根據實際需要進行參數配置。
    oss發現2
    參數配置說明如下表所示:
    參數說明
    數倉模式和自由模式您可以選擇數倉模式或自由模式:
    • 數倉模式:為“基於OSS而構建的標準資料倉儲”的情境構建自動化元資訊發現,識別精度高。OSS路徑資料布局要求為“庫/表/檔案”或者“庫/表/分區/.../分區/檔案”。
    • 自由模式:為“探索OSS上的資料進行分析”的情境構建自動化元資訊發現。對OSS資料布局沒有要求,可能會產生差異化的表。
    OSS目錄位置檔案在OSS中的儲存地址,以/結尾。系統會根據您選擇的檔案夾路徑,自動化佈建OSS路徑。
    說明 系統會自動拉取與DLA同地區的OSS Bucket,您可以根據業務需要從下拉式清單中選擇Bucket。選擇Bucket後,系統會自動列出該Bucket下所有的Object和檔案;選中目標Object和檔案後,系統會自動將其添加到右側的OSS路徑處。
    格式解析器預設自動解析,即按照順序調用所有內建解析器,也可指定特定檔案類型的格式解析器,比如json、parquet、avro、orc、csv。
    調度頻率您可以根據需要定期計劃運行元資訊發現任務。
    Schema名稱設定Schema名稱,即映射到DLA中的資料庫名稱(預設每個發現任務會新建立一個獨立的Schema)。
    配置選項進階自訂設定項,如欄位分隔符號、引用標識、表頭模式、允許單個欄欄位等。
  6. 配置完成後,單擊建立
    元資訊發現任務建立成功後,在工作清單中您將能看到建立成功的任務資訊。元資訊發現任務將根據您設定的調度頻率,需要您手動執行或者定期自動調度該任務。oss發現4
    元資訊發現任務執行成功後,單擊schema名稱/首碼列下面的資料庫名稱連結(如單擊alibaba),跳轉到Serverless Presto > SQL執行頁面。您可以看到DLA自動探索建立成功的庫、表、列資訊。oss發現6
  7. Serverless Presto > SQL執行頁面編寫SQL語句,單擊同步執行或者非同步執行,執行SQL語句。
    例如在schema1_test下執行select * from `schema1_test`.`supply_ceshi` limit 20;oss發現7
    您可以在執行結果中,查看DLA從OSS目錄oss://alibaba-crawler/schema1/supply_ceshi/下的supplier_with_header.csv檔案中自動探索的資料資訊。