MaxCompute支援Schema,在Project之下對Table、Resource、Function進行歸類。本文為您介紹Schema的概念、許可權內容以及如何使用Schema。
背景資訊
MaxCompute專案(Project)作為基主要組織單元,是進行多使用者隔離和存取控制的主要邊界。同時Project中包含表(Table)、資源(Resource)、函數(Function)對象,這些對象原來直接放在Project下,需要Project充當類似於傳統資料庫的Database或Schema的概念,因此導致了概念不清晰(既是Database又是Schema),使用不方便,尤其是在有很多表或者對象的情況。現在MaxCompute支援Schema,在Project之下對Table、Resource、Function進行歸類,層級如下圖所示。
當前MaxCompute Schema功能還在公測中,如果您需要使用的話,請提交新功能測試申請同時提供UID和Project名稱
。提交新功能測試申請後,MaxCompute將對Project進行升級,目前此升級流程日常只安排在每周一和每周四進行,提交申請後請耐心等待。升級後將在Project內建立名稱為DEFAULT的Schema,以及會將UID對應租戶的Schema文法開關開啟,同時您可以自訂建立Schema並進行操作使用。
如果您剛使用MaxCompute,未建立過專案,則可以在MaxCompute控制台左側導覽列選擇租戶管理 > 租戶屬性,在租戶屬性頁面開啟租戶級Schema文法開關,這樣您建立的專案都是支援Schema功能的專案。
重點術語
Schema。
處於Project下,Table、Resource、UDF上的對象,對Table、Resource、UDF進行歸類。一個Project下可以有多個Schema。
Schema文法開關。
使用Schema功能後,SQL文法上需要識別
project.schema.table
的語義,通過set odps.namespace.schema=true|false;
開關決定SQL語義。此開關支援租戶層級和作業層級順位()。租戶層級開關可以在MaxCompute控制台左側導覽列選擇租戶管理 > 租戶屬性查看,同時如果當前租戶下沒有任何專案,則可以在租戶屬性頁面開啟租戶級Schema文法開關;如果當前租戶下有專案,不允許也不建議您修改。關於開啟租戶級Schema詳情,請參見租戶屬性。
作業層級通過
set odps.namespace.schema=true;
命令開啟Schema文法開關。將SQL中a.b.c
格式的語句識別為project.schema.table
;將SQL中a.b
格式的語句識別為schema.table
。通過set odps.namespace.schema=false;
命令關閉Schema文法開關,即SQL中無法識別a.b.c
格式的語句,將SQL中a.b
格式的語句識別為project.table
。
Default Schema。
使用Schema功能的Project,每個Project下會內建有一個名稱為DEFAULT的Schema,且不可自訂單獨刪除。
使用限制
當前MaxCompute Schema功能還在公測中,有些模組還沒有支援,即這些模組對MaxCompute發起的操作僅能在set odps.namespace.schema=false
的模式下正常使用,具體限制如下。
MaxCompute的Spark作業暫時支援在中國內地地區操作自訂Schema,除中國內地地區以外的地區陸續支援中。
MaxComopute的Mars、MapReduce作業暫不支援有Schema的專案,即您的專案一旦升級為支援Schema,將無法使用這兩類作業。
PAI、Quick BI等其他雲產品暫時不支援操作自訂Schema相關功能。
MaxCompute Studio僅外掛程式為4.0.0及以上版本支援Schema相關功能。
在
odps.namespace.schema=false
文法下建立的View只能在同樣的文法下訪問,同理在odps.namespace.schema=true
文法下建立的View只能在同樣的文法下訪問。Hologres V1.3及以上版本支援MaxCompute Schema相關功能。若您需要升級Hologres的執行個體,請參見執行個體升級。
Java SDK 0.40.8及以上版本、JDBC 3.3.2及以上版本、MaxCompute用戶端v0.40.8及以上版本和PyODPS 0.11.3.1及以上版本支援Schema相關功能。
DataWorks只有當租戶層級Schema文法開關開啟時,才會有Schema互動。若只有某些專案儲存用了自訂Schema,而租戶層級Schema文法關閉時,那麼DataWorks介面互動不支援自訂Schema的操作,Data Integration可通過指令碼模式來指定自訂Schema內的對象 。DataWorks對Schema支援詳情請參見DataWorks支援MaxCompute Schema
使用說明
關於使用Schema的說明如下。
建立Project。
使用Schema必須建立Project,詳情請參見建立MaxCompute專案。通過MaxCompute控制台建立專案時,如果您租戶層級文法開關開啟(
。odps.namespace.schema
值為true
)則建立的專案預設支援Schema,否則需要提交新功能測試申請將專案升級支援Schema說明提交新功能測試申請後,MaxCompute將對Project進行升級,目前此升級流程日常只安排在每周一和每周四進行,提交申請後請耐心等待。
管理Schema。
通過命令管理Schema
管理Schema的命令如下所示。
查看Schema列表。
show schemas;
建立Schema。
create schema <schema_name>;
schema_name為自訂的Schema名稱。
查看Schema資訊。
desc schema <schema_name>;
schema_name為Schema名稱。
刪除Schema。
drop schema <schema_name>;
schema_name為Schema名稱。
通過管理主控台管理Schema
登入MaxCompute控制台,在左上方選擇地區。
在左側導覽列,選擇工作區 > 專案管理。
在專案管理頁面,單擊目標專案操作列的管理。
在專案配置頁面,單擊Schema。
說明支援Schema的專案才可見Schema頁簽。
在Schema頁簽,您可以查看Schema列表、建立和刪除Schema。
操作Schema內對象。
需要操作Schema內的對象(Table、View、Resource、Function),寫命令時按照
projct.schema.table
的格式進行編輯。注意事項如下。
說明本文中對Table對象的所有描述,同時適用於View、Resource、Function。
跨Project操作Table,則命令格式需要寫完整(project.schema.table)。
同一個Project下跨Schema的命令格式可以寫成
schema.table
,即命令中如果寫成a.b
格式,則a
解析為Schema,b
解析為Table,Project為當前Proejct。同一個Project下可以使用
use schema <schema_name>
命令指定當前Schema,命令中可直接使用類似select * from a
的命令,此時a
是Table,自動解析到當前的Project和指定的Schema。如果無上下文指定Schema,命令中使用類型
select * from a
的命令,此時a
是Table,自動解析到當前Project和名稱為default 的Schema。
使用樣本如下。
同一個Project(projectA)下操作Schema內對象。
操作default這個Schema內的對象。
use projectA; set odps.namespace.schema=true;--租戶層級如果已經設定,此處就不用再指定 --操作table t_a create table t_a(c1 string,c2 bigint); insert into/overwrite table t_a values ('a',1),('b',2),('c',3); select * from t_a; show tables; desc t_a; tunnel upload <path> t_a[/<pt_spc>]; tunnel download t_a[/pt_spc] <path>; --操作resource res_a.jar add jar <path>/res_a.jar ; desc resource res_a.jar; list resources; get resource res_a.jar D:\; drop resource res_a.jar; --操作function fun_a create function fun_a as 'xx' using 'res_a.jar'; desc function fun_a; list functions; drop function fun_a;
path:檔案的存放路徑以及檔案名稱。pt_spc:需要指定至最末級分區,格式為:
pt_spcpartition_col1=col1_value1, partition_col2=col2_value1...pt_spc
。操作自訂Schema(s_1和s_2)下的對象,包括跨Schema操作。
use projectA; set odps.namespace.schema=true;--租戶層級已經設定,此處就不用再指定 --操作s_1下的table t_c use schema s_1; create table t_c(c1 string,c2 bigint); insert into/overwrite table t_c values ('a',1),('b',2),('c',3); select * from t_c; show tables; drop table t_c; tunnel upload <path> t_c[/<pt_spc>]; tunnel download t_c[/pt_spc] <path>; --操作s_2下的table t_d creata table s_2.t_d(c1 string,c2 bigint); insert into/overwrite table s_2.t_d values ('a',1),('b',2),('c',3); select * from s_2.t_d; show tables in s_2; drop table s_2.t_d; tunnel upload <path> s_2.t_d[/<pt_spc>]; tunnel download s_2.t_d[/pt_spc] <path>; --操作s_1下的resource res_b.jar use schema s_1; add jar <path>/res_b.jar ; desc resource res_b.jar; list resources; get resource res_b.jar D:\; drop resource res_b.jar; --操作s_2下的resource res_c.jar add jar xxx ;--add resource只能在當前schema/project下操作不能跨schema/project,所以正常操作還是需要切換到schema s_2 --跨專案或跨Schema時,resource的層級使用英文冒號(:)分隔 desc resource s_2:res_c.jar; list resources in s_2; get resource s_2:res_c.jar D:\; drop resource s_2:res_c.jar; --操作s_1下的function fun_b use schema s_1; create function fun_b as 'xx' using 'res_b.jar' desc function fun_b; list functions; drop function fun_b; --操作s_2下的function fun_c create function s_2.fun_c as 'xx' using 's_2/resources/res_c.jar' drop function s_2.fun_c; desc function s_2.fun_c; list functions in s_2; drop function s_2.fun_c;
跨Project操作(在ProjectA下操作ProjectB的對象)。
use projectA; set odps.namespace.schema=true; --租戶層級如果已經設定,此處不用再指定 --操作projectB下的s_3的table t_f create table projectB.s_3.t_f(c1 string,c2 bigint); insert into/overwrite table projectB.s_3.t_f values ('a',1),('b',2),('c',3); select * from projectB.s_3.t_f; show tables in projectB.s_3; desc projectB.s_3.t_f; drop table projectB.s_3.t_f; tunnel upload <path> projectB.s_3.t_f[/<pt_spc>]; tunnel download projectB.s_3.t_f[/pt_spc] <path>; --操作projectB下的s_3的resource res_f.jar add jar xxx ;--add resource只能在當前schema/project下操作不能跨schema/project,所以正常操作還是需要切換到projectB並使用schema s_3 --跨專案跨Schema時,resource的層級使用英文冒號(:)分隔 desc resource projectB:s_3:res_f.jar; list resources in projectB.s_3; get resource projectB:s_3:res_f.jar D:\; drop resource projectB:s_3:res_f.jar; --操作projectB下s_3的function fun_f create function projectB.s_3.fun_f as 'xx' using 'projectB/schemas/s_3/resources/res_f.jar' desc function projectB.s_3.fun_f; list functions in projectB.s_3; drop function projectB.s_3.fun_f;
許可權說明
Schema對象許可權授權。
Schema對象相關的操作許可權如CreateTable、CreateResource、CreateFunction幾項操作許可權,目前需通過對Project對象授權來實現,即有Project的CreateTable、CreateResource、CreateFunction操作許可權,則所有Schema就都具有這些操作許可權。後續會實現對Schema對象的許可權控制。
說明Schema Owner預設擁有Schema以及Schema內資源的所有訪問以及許可權管控許可權。
如果已經有擁有Project的CreateTable、CreateResource、CreateFunction幾項操作許可權,自動繼承Project下Schema對應的幾個操作許可權。
Schema內資來源物件許可權。
目前在對Schema內資來源物件進行ACL授權時,對象必須寫完整(
project.schema.table
),授權文法格式如下。具體對象(Table、Resource、Function)的許可權列表請參見MaxCompute許可權。您也可以通過管理主控台進行授權操作,詳情請參見通過控制台(新版)系統管理使用者許可權。--授予某角色Schema內所有表操作許可權 GRANT schemaObjectPrivileges ON TABLE <project_name>.<schema_name>.* TO role {rolename}; --移除某角色Schema內所有表操作許可權 REVOKE schemaObjectPrivileges ON TABLE <project_name>.<schema_name>.* FROM role {rolename}; --授予某角色或某使用者Schema內某表操作許可權 GRANT schemaObjectPrivileges ON TABLE <project_name>.<schema_name>.<tablename> TO {role|user} {rolename | USER name};--授予某角色或者某使用者Schema內某表操作許可權 --移除某角色或某使用者Schema內某表操作許可權 REVOKE schemaObjectPrivileges ON TABLE <project_name>.<schema_name>.<tablename> FROM {role|user} {rolename | USER name}; --查看某表的許可權 SHOW GRANTS ON TABLE <project_name>.<schema_name>.<tablename>;
說明不支援
GRANT schemaObjectPrivileges ON TABLE <project_name>.<schema_name>.xxx* TO role {rolename};
這種寫法。