在服務端對讀取結果再進行一次過濾,根據過濾器(Filter)中的條件決定返回的行。使用過濾器後,只返回合格資料行,從而有效降低網路傳輸的資料量,減少回應時間。
情境
直接過濾結果
以物聯網中的智能電錶為例,智能電錶按一定的頻率(例如每隔15秒)將當前的電壓、電流、度數等資訊寫入Table Store。在按天做分析時,需要擷取某一個電錶當天是否出現過電壓異常以及出現時的其他狀態資料,用於判斷是否需要對某條線路進行檢修。
按照目前的方案,使用GetRange讀取一個電錶一天內的所有的監控資料,共有5760條,然後再對5760條資訊進行過濾,最終擷取了10個電壓出現不穩定時的監控資訊。
使用過濾器只返回了實際需要的10條資料,有效降低了返回的資料量。而且無需再對結果進行初步的過濾處理,節省了開發成本。
正則匹配並轉換資料類型後再過濾結果
當某些列中儲存了自訂格式資料(例如JSON格式字串)時,如果使用者希望過濾查詢該列的某個子欄位值,則可以通過Regex匹配並轉換子欄位實值型別後,再使用過濾器來過濾需要的資料。
例如列中儲存的資料為
{cluster_name:name1,lastupdatetime:12345}
格式,如果需要過濾查詢lastupdatetime>12345
的行資料,此時您可以通過Regexlastupdatetime:([0-9]+)}
來匹配該列中子欄位的資料,然後將匹配結果轉換為數實值型別,再進行數實值型別的比較,從而過濾得到所需要的資料行。
功能概述
在通過GetRow、BatchGetRow和GetRange介面查詢資料時,您可以使用過濾器只返回合格資料行。 在GetRow、BatchGetRow和GetRange介面中使用過濾器不會改變介面的原生語義和限制項,具體操作,請參見讀取資料。
使用過濾器時,您可以根據需要進行如下配置:
當參考列在某行中不存在時,可以使用PassIfMissing參數決定此時是否滿足條件,即設定當參考列不存在時的行為。
當參考列存在多個版本的資料時,配置是否只使用最新版本的值做比較。
使用Regex用於匹配子欄位值。
使用關係運算子和邏輯運算子構造組合過濾條件。
過濾器目前包括SingleColumnValueFilter、SingleColumnValueRegexFilter和CompositeColumnValueFilter,是基於一個或者多個參考列的列值決定是否過濾某行。
過濾器 | 說明 |
只判斷某個參考列的列值。 | |
支援對類型為String的列值,使用Regex進行子字串匹配,然後根據實際將匹配到的子字串轉換為String、Integer或者Double類型,再使用過濾器進行過濾。 其中Regex必須滿足以下條件:
| |
根據多個參考列的列值的判斷結果進行邏輯組合,決定是否過濾某行。 |
注意事項
過濾器的條件支援關係運算(=、!=、>、>=、<、<=)和邏輯運算(NOT、AND、OR),最多支援10個條件的組合。
過濾器中的參考列必須在讀取的結果內。如果指定的要讀取的列中不包含參考列,則過濾器無法擷取參考列的值。
使用GetRange介面時,一次掃描資料的行數不能超過5000行或者資料大小不能超過4 MB。
當在該次掃描的5000行或者4 MB資料中沒有滿足過濾器條件的資料時,得到的Response中的Rows為空白,但是NextStartPrimaryKey可能不為空白,此時需要使用NextStartPrimaryKey繼續讀取資料,直到NextStartPrimaryKey為空白。
使用方式
只支援通過SDK方式使用過濾器功能。
您可以通過Java SDK、Go SDK、Python SDK、Node.js SDK、.NET SDK和PHP SDK使用過濾器功能。此處以Java SDK為例介紹過濾器功能的使用。
使用SingleColumnValueFilter過濾資料
以下樣本用於讀取資料表中的一行資料,設定讀取最新版本的資料以及根據Col0列的值過濾資料。
private static void getRow(SyncClient client, String pkValue) {
//構造主鍵。
PrimaryKeyBuilder primaryKeyBuilder = PrimaryKeyBuilder.createPrimaryKeyBuilder();
primaryKeyBuilder.addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString(pkValue));
PrimaryKey primaryKey = primaryKeyBuilder.build();
//讀取一行資料,設定資料表名稱。
SingleRowQueryCriteria criteria = new SingleRowQueryCriteria("<TABLE_NAME>", primaryKey);
//設定讀取最新版本。
criteria.setMaxVersions(1);
//設定過濾器,當Col0列的值為0時,返回該行。
SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter("Col0",
SingleColumnValueFilter.CompareOperator.EQUAL, ColumnValue.fromLong(0));
//如果Col0列不存在,則不返回該行。
singleColumnValueFilter.setPassIfMissing(false);
criteria.setFilter(singleColumnValueFilter);
GetRowResponse getRowResponse = client.getRow(new GetRowRequest(criteria));
Row row = getRowResponse.getRow();
System.out.println("讀取完畢,結果為: ");
System.out.println(row);
}
使用SingleColumnValueRegexFilter正則過濾資料
以下樣本用於讀取主鍵範圍為["pk:2020-01-01.log", "pk:2021-01-01.log")
時Col1列的資料,並對該列的資料執行正則過濾。
private static void getRange(SyncClient client) {
//設定資料表名稱。
RangeRowQueryCriteria criteria = new RangeRowQueryCriteria("<TABLE_NAME>");
//設定主鍵範圍為["pk:2020-01-01.log", "pk:2021-01-01.log"),讀取範圍為左閉右開的區間。
PrimaryKey pk0 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
.addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("2020-01-01.log"))
.build();
PrimaryKey pk1 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
.addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("2021-01-01.log"))
.build();
criteria.setInclusiveStartPrimaryKey(pk0);
criteria.setExclusiveEndPrimaryKey(pk1);
//設定讀取最新版本。
criteria.setMaxVersions(1);
//設定過濾器,當cast<int>(regex(Col1)) > 100時,返回該行。
RegexRule regexRule = new RegexRule("t1:([0-9]+),", RegexRule.CastType.VT_INTEGER);
SingleColumnValueRegexFilter filter = new SingleColumnValueRegexFilter("Col1",
regexRule,SingleColumnValueRegexFilter.CompareOperator.GREATER_THAN,ColumnValue.fromLong(100));
criteria.setFilter(filter);
while (true) {
GetRangeResponse resp = client.getRange(new GetRangeRequest(criteria));
for (Row row : resp.getRows()) {
// do something
System.out.println(row);
}
if (resp.getNextStartPrimaryKey() != null) {
criteria.setInclusiveStartPrimaryKey(resp.getNextStartPrimaryKey());
} else {
break;
}
}
}
使用CompositeColumnValueFilter過濾資料
以下樣本用於返回主鍵範圍在["a","h")
之間,Col0列值等於0且Col1列值大於100或者Col2列值小於等於10的行。
private static void getRange(SyncClient client) {
//設定資料表名稱。
RangeRowQueryCriteria criteria = new RangeRowQueryCriteria("<TABLE_NAME>");
//設定主鍵範圍,讀取範圍為左閉右開的區間。
PrimaryKey pk0 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
.addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("a"))
.build();
PrimaryKey pk1 = PrimaryKeyBuilder.createPrimaryKeyBuilder()
.addPrimaryKeyColumn("pk", PrimaryKeyValue.fromString("h"))
.build();
criteria.setInclusiveStartPrimaryKey(pk0);
criteria.setExclusiveEndPrimaryKey(pk1);
//設定讀取最新版本。
criteria.setMaxVersions(1);
//composite1的條件為(Col0 == 0) AND (Col1 > 100)。
CompositeColumnValueFilter composite1 = new CompositeColumnValueFilter(CompositeColumnValueFilter.LogicOperator.AND);
SingleColumnValueFilter single1 = new SingleColumnValueFilter("Col0",
SingleColumnValueFilter.CompareOperator.EQUAL, ColumnValue.fromLong(0));
SingleColumnValueFilter single2 = new SingleColumnValueFilter("Col1",
SingleColumnValueFilter.CompareOperator.GREATER_THAN, ColumnValue.fromLong(100));
composite1.addFilter(single1);
composite1.addFilter(single2);
//composite2的條件為( (Col0 == 0) AND (Col1 > 100) ) OR (Col2 <= 10)。
CompositeColumnValueFilter composite2 = new CompositeColumnValueFilter(CompositeColumnValueFilter.LogicOperator.OR);
SingleColumnValueFilter single3 = new SingleColumnValueFilter("Col2",
SingleColumnValueFilter.CompareOperator.LESS_EQUAL, ColumnValue.fromLong(10));
composite2.addFilter(composite1);
composite2.addFilter(single3);
criteria.setFilter(composite2);
while (true) {
GetRangeResponse resp = client.getRange(new GetRangeRequest(criteria));
for (Row row : resp.getRows()) {
// do something
System.out.println(row);
}
if (resp.getNextStartPrimaryKey() != null) {
criteria.setInclusiveStartPrimaryKey(resp.getNextStartPrimaryKey());
} else {
break;
}
}
}
計費說明
使用過濾器功能不影響現有計費規則。
使用過濾器後,可以有效降低返回的資料量,但是由於過濾計算是伺服器端在返回資料前進行的,並未降低磁碟IO次數,所以消耗的讀CU與不使用過濾器時相同。例如使用GetRange讀取到100條記錄,共200 KB資料,消耗了50單位讀CU,在使用過濾器後,實際只返回了10條資料,共20 KB,但是仍然會消耗50單位讀CU。