預先處理資料

此功能可確保敏感數據在傳輸到數據湖之前在用戶端進行處理，從而防止其暴露給未經授權的外部實體。

為了在自動代理進程識別中獲得最佳機器學習（ML）結果，請關閉此功能（預設設置）。這使 ML 能夠分析更多數據，從而實現更好的自動化流程分析。僅當您必須對數據湖資料庫中的數據進行哈希處理或遮罩時，才啟用此功能。

在客戶端系統上，轉到%appdata%\Nice_Systems\CXDiscovery然後打開CXDClientConfig.json檔。
若要啟用此功能，請在 CXDClientConfig.json 檔案中的資料收集下添加以下配置部分。將預處理」屬性設置為 true以啟用預處理

“預處理”：

{

“啟用”： “真”，

“電子郵件令牌”： “_電子郵件_”，

“phoneNumberToken”： “_phone_”，

“日期時間令牌”： “_日期時間_”，

“IPToken”： “_ip_”，

“名字令牌”： “_名字_”，

“姓氏令牌”： “_姓氏_”，

“機場令牌”： “_機場_”，

“城市代幣”： “_城市_”，

“國家令牌”： “_國家_”，

“字母數位令牌”： “_字母數位_”，

“數位令牌”： “_num_”，

“自定義字元令牌”： “”，

“maxKeepingInvalidMessageDays”： “30”

}

要使此功能正常運行，請確保在CXDClientConfig.json檔中啟用了數據收集屬性。所有屬性都是可選的，如果未指定，將使用其預設值。

每個屬性都允許您自定義在用戶端配置中表示或管理敏感或結構化數據的方式。

例如：

輸入文字：John Doe，他的電子郵件是 john.doe@example.com，電話號碼是+1-555-1234，住在美國紐約。

泛化后：

輸入文字： _name_，其電子郵件是_email_，電話號碼是_phone_number_，住在_city_，_country_。
遮罩數據：除上述指定關鍵字外的所有數據都將被遮罩。範例：

遮罩前：

輸入文字：_name_，其電子郵件是 _email_，電話號碼是 _phone_number_，住在 _city_， _country_。

遮罩後：

遮罩輸入文字： _姓名_，中交中交會 CCC _電子郵件_中交會 CCC _phone_number_，中交會 CC _城市_， _國家_
散列資料：除上述指定關鍵字外的所有資料都將進行散列並分配給以下欄位：
- 控制識別碼哈希
- 文字哈希
- 行程標題哈希
範例：

在散列之前：

_name_，其電子郵件是_email_，電話號碼是_phone_number_，住在_city_， _country_

散列後：

_name_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_email_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_phone_number_988 698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_city_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_country_

下表描述了配置屬性。

屬性	描述
啟用	此屬性確定是啟用還是禁用預處理功能。默認情況下，它設置為false（禁用）。啟用后，它會將下面在 processTitle、url、textMask 和 controlIdentifier 中提到的敏感數據欄位替換為配置的令牌。
電子郵件權杖	這是郵件中電子郵件位址的佔位元。預設值：_電子郵件_
phoneNumberToken	這是消息中電話號碼的佔位元。預設值：_電話_
日期時間權杖	這是日期和時間值的佔位元。預設值：_日期時間_
伊普托肯	這是IP位址的佔位元。預設值：_ip_
名字權杖	這是郵件中名字的佔位元。預設值：_名字_
姓氏令牌	這是郵件中姓氏（姓氏）的佔位元。預設值：_姓氏_
機場令牌	這是機場名稱或代碼的佔位元。預設值：機場
城市代幣	這是城市名稱的佔位元。預設值： _城市_
國家權杖	這是國家/地區名稱的佔位元。預設值： _國家_
字母數字權杖	這是字母數位字串的佔位元。預設值：_字母數位_
數位權杖	這是數值的佔位元。預設值：_num_
自訂字元令牌	這指定了要在預處理期間用星號（*）替換的特殊字元。預設值為空。
maxKeepingInvalidMessageDays	這表示保留無效郵件的最長天數。預設值： 30 （天）

限制

名稱識別範圍：只有資料庫中完全匹配的名稱（包括名字、姓氏、機場、城市和國家）才會被識別和標記。不會檢測到變體或拼寫錯誤。
名稱檢測中的誤報：由於名稱數量很大，某些非名稱單詞可能會被錯誤地識別為名稱。
重疊名稱類別：某些名稱可以屬於多個類別（例如，“喬治亞”和“乍得”可以是名字、姓氏或國家名稱）。標記化取決於資料庫中的類別，並遵循以下順序：名字>姓氏>機場名稱>城市名稱>國家名稱。