預先處理資料
此功能可確保敏感數據在傳輸到數據湖之前在用戶端進行處理,從而防止其暴露給未經授權的外部實體。
為了在自動代理進程識別中獲得最佳機器學習 (ML) 結果,請關閉此功能(預設設置)。 這使 ML 能夠分析更多數據,從而實現更好的自動化流程分析。 僅當您必須對數據湖資料庫中的數據進行哈希處理或遮罩時,才啟用此功能。
-
在客戶端系統上,轉到%appdata%\Nice_Systems\CXDiscovery然後打開CXDClientConfig.json檔。
-
若要啟用此功能,請在 CXDClientConfig.json 檔案中的資料收集下添加以下配置部分。 將預處理」屬性設置為 true以啟用預處理
“預處理”:
{
“啟用”: “真”,
“電子郵件令牌”: “_電子郵件_”,
“phoneNumberToken”: “_phone_”,
“日期時間令牌”: “_日期時間_”,
“IPToken”: “_ip_”,
“名字令牌”: “_名字_”,
“姓氏令牌”: “_姓氏_”,
“機場令牌”: “_機場_”,
“城市代幣”: “_城市_”,
“國家令牌”: “_國家_”,
“字母數位令牌”: “_字母數位_”,
“數位令牌”: “_num_”,
“自定義字元令牌”: “”,
“maxKeepingInvalidMessageDays”: “30”
}
要使此功能正常運行,請確保在CXDClientConfig.json檔中啟用了數據收集屬性。 所有屬性都是可選的,如果未指定,將使用其預設值。
每個屬性都允許您自定義在用戶端配置中表示或管理敏感或結構化數據的方式。例如:
輸入文字:John Doe,他的電子郵件是 john.doe@example.com,電話號碼是+1-555-1234,住在美國紐約。
泛化后:
輸入文字: _name_,其電子郵件是_email_,電話號碼是_phone_number_,住在_city_,_country_。
-
遮罩數據:除上述指定關鍵字外的所有數據都將被遮罩。 範例:
遮罩前:
輸入文字:_name_,其電子郵件是 _email_,電話號碼是 _phone_number_,住在 _city_, _country_。
遮罩後:
遮罩輸入文字: _姓名_, 中交中交會 CCC _電子郵件_中交會 CCC _phone_number_, 中交會 CC _城市_, _國家_
-
散列資料:除上述指定關鍵字外的所有資料都將進行散列並分配給以下欄位:
-
控制識別碼哈希
-
文字哈希
-
行程標題哈希
範例:
在散列之前:
_name_,其電子郵件是_email_,電話號碼是_phone_number_,住在_city_, _country_
散列後:
_name_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_email_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_phone_number_988 698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_city_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_country_
-
下表描述了配置屬性。
屬性 |
描述 |
---|---|
啟用 |
此屬性確定是啟用還是禁用預處理功能。 |
電子郵件權杖 |
這是郵件中電子郵件位址的佔位元。 預設值:_電子郵件_ |
phoneNumberToken |
這是消息中電話號碼的佔位元。 預設值:_電話_ |
日期時間權杖 |
這是日期和時間值的佔位元。 預設值:_日期時間_ |
伊普托肯 |
這是IP位址的佔位元。 預設值:_ip_ |
名字權杖 |
這是郵件中名字的佔位元。 預設值:_名字_ |
姓氏令牌 |
這是郵件中姓氏(姓氏)的佔位元。 預設值:_姓氏_ |
機場令牌 |
這是機場名稱或代碼的佔位元。 預設值:機場 |
城市代幣 |
這是城市名稱的佔位元。 預設值: _城市_ |
國家權杖 |
這是國家/地區名稱的佔位元。 預設值: _國家_ |
字母數字權杖 |
這是字母數位字串的佔位元。 預設值:_字母數位_ |
數位權杖 |
這是數值的佔位元。 預設值:_num_ |
自訂字元令牌 | 這指定了要在預處理期間用星號 (*) 替換的特殊字元。 預設值為空。 |
maxKeepingInvalidMessageDays |
這表示保留無效郵件的最長天數。 預設值: 30 (天) |
限制
-
名稱識別範圍:只有資料庫中完全匹配的名稱(包括名字、姓氏、機場、城市和國家)才會被識別和標記。 不會檢測到變體或拼寫錯誤。
-
名稱檢測中的誤報:由於名稱數量很大,某些非名稱單詞可能會被錯誤地識別為名稱。
-
重疊名稱類別:某些名稱可以屬於多個類別(例如,“喬治亞”和“乍得”可以是名字、姓氏或國家名稱)。 標記化取決於資料庫中的類別,並遵循以下順序:名字>姓氏>機場名稱>城市名稱>國家名稱。