本文介紹如何通過嚮導建立SLS的OSS投遞資料來源發現任務,自動探索您目前範圍下所有的Logstore投遞到OSS的日誌資料(包括新增的投遞到OSS的日誌資料,以及增量的分區及資料),並自動建立DLA庫表映射到投遞的OSS日誌資料上。
前提條件
目前範圍下的SLS已經將Log Service資料投遞到OSS。具體操作請參考建立OSS投遞任務(舊版)。業務情境
企業會把服務日誌、行為日誌等資料存放區在Log ServiceSLS中,當資料量較大時,可以通過投遞的方式把全量資料歸檔到OSS。以前這些資料不可進行分析計算,使用DLA的元資訊發現功能,能夠一鍵構建資料湖的中繼資料,接入DLA的統一資料分析平台。使用DLA的Serverless Spark及Presto引擎能夠計算和分析DLA中繼資料管理的全域資料,可以支援ETL後資料交付、低頻全量日誌資料分析、日誌資料關聯DB資料分析等業務情境。
操作步驟
- 登入Data Lake Analytics管理主控台。
- 在左側導覽列,單擊 。
- 在元資訊發現頁面的SLS的OSS投遞資料來源地區,單擊進入嚮導。
- 在SLS的OSS投遞資料來源頁簽,根據頁面提示進行參數配置,配置說明如下:
參數 說明 資料來源配置 您可以通過以下兩種方式選擇資料來源: - 自動探索:您無需做任何配置,自動探索所有Project的OSS投遞,當有新的OSS投遞設定時,在下一次執行時可以自動探索。
- 手動選擇:當選擇該方式時,您需要手動選擇logstore。
調度頻率 您可以根據需要設定調度SLS的OSS投遞資料來源發現任務的周期。 具體時間 設定SLS的OSS投遞資料來源發現調度任務的執行時間。 schema首碼 設定Schema的首碼,即映射到DLA中的資料庫名稱的首碼。Schema的名稱規則為“首碼__Logstore投遞的Bucket名稱”。 配置選項 進階自訂設定項,如檔案欄位變更規則。 - 完成上述參數配置後,單擊建立,開始建立SLS的OSS投遞資料來源發現任務。
- SLS的OSS投遞資料來源發現任務建立成功後,單擊立即發現開始運行自動探索SLS的OSS投遞資料來源任務。您也可以在工作清單中看到建立成功的任務資訊。SLS的OSS投遞資料來源發現任務將根據您設定的調度頻率,需要您手動執行或者定期自動調度該任務。SLS的OSS投遞資料來源發現任務執行成功後,單擊schema名稱/首碼列下面的資料庫名稱連結(如單擊muyuantestonline),跳轉到頁面。您可以看到DLA自動探索建立成功的庫、表、列資訊。
- 在 頁面編寫SQL語句,單擊同步執行或者非同步執行,執行SQL語句。例如在muyuantestonline__dla_crawler_hangzhou下執行
select * from `muyuantestonline__dla_crawler_hangzhou`.`sls_crawler_test__csv_full_types` limit 20;