数据预处理

此功能可确保敏感数据在传输到数据湖之前在客户端进行处理，从而防止其暴露给未经授权的外部实体。

为了在自动代理进程识别中获得最佳机器学习（ML）结果，请关闭此功能（默认设置）。这允许 ML 分析更多数据，从而更好地进行自动流程分析。仅当必须对数据湖数据库中的数据进行哈希处理或屏蔽时，才启用此功能。

在客户端系统上，转到 %appdata%\Nice_Systems\CXDiscovery然后打开 CXDClientConfig.json 文件。
要启用此功能，请在 CXDClientConfig.json 文件中的 DataCollection 下添加以下配置部分。将 PreProcessing “enabled”属性设置为 true以启用预处理

“预处理”：

{

“enabled”： “true”， /启用

“emailToken”： “_email_”， //电子邮件令牌

“phoneNumberToken”： “_phone_”， ///手机编号

“dateTimeToken”： “_datetime_”， //日期时间_

“IPToken”： “_ip_”， /

“FirstNameToken”： “_firstname_”， ////

“SurnameToken”： “_surname_”， //姓氏_

“AirportToken”： “_airport_”， //

“CityToken”： “_city_”， /

“国家/地区代币”： “_country_”，

“alphanumericToken”： “_alphanumeric_”， //字母数字令牌

“numericToken”： “_num_”， //数字令牌

“customCharacterTokens”： “”，

“maxKeepingInvalidMessageDays”： “30”

}

要使此功能正常运行，请确保在 CXDClientConfig.json 文件中启用DataCollection属性。所有属性都是可选的，如果未指定，将使用其默认值。

每个属性都允许您自定义敏感或结构化数据在客户端配置中的表示或管理方式。

例如：

输入文本：John Doe，电子邮件是 john.doe@example.com，电话号码是 +1-555-1234，住在美国纽约。

泛化后：

输入文本： _name_，其电子邮件是_email_，电话号码是 _phone_number_，居住地_city_， _country_。
屏蔽 data：除上述指定关键字外的所有数据都将被屏蔽。例如：

蒙版前：

输入文本：_name_，电子邮件是 _email_，电话号码是 _phone_number_，住在 _city_， _country_。

遮罩后：

蒙面输入文本： _姓名_， CCCC CCCCC CC_电子邮件_ CCCC CCCCC CCCCC _phone_number_， CCCCC CC _city_， _country_
对数据进行哈希处理：除上述指定关键字之外的所有数据都将被哈希处理并分配给以下字段：
- controlIdentifierHashed
- 文本哈希
- processTitleHashed
例如：

哈希之前：

_name_，其电子邮件为_email_，电话号码为 _phone_number_，居住地_city_，_country_

哈希处理后：

_name_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_email_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_phone_number_98 698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_city_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_country_

下表描述了配置属性。

属性	说明
已启用	此属性确定是启用还是禁用预处理功能。默认情况下，它设置为false（禁用）。启用后，它会将下面提到的 processTitle、url、textAsked 和 controlIdentifier 中提到的敏感数据字段替换为配置的令牌。
电子邮件令牌	这是邮件中电子邮件地址的占位符。默认值：_email_
phoneNumber令牌	这是消息中电话号码的占位符。默认值：_phone_
dateTimeToken	这是日期和时间值的占位符。默认值：_datetime_
IPToken	这是 IP 地址的占位符。默认值：_ip_
名字令牌	这是消息中名字的占位符。默认值：_firstname_
姓氏令牌	这是消息中姓氏（姓氏）的占位符。默认值：_surname_
机场令牌	这是机场名称或代码的占位符。默认值： _airport_
CityToken （城市令牌）	这是城市名称的占位符。默认值： _city_
国家代币	这是国家/地区名称的占位符。默认值： _country_
alphanumericToken	这是字母数字字符串的占位符。默认值：_alphanumeric_
numericToken	这是数值的占位符。默认值：_num_
自定义角色令牌	这指定了在预处理期间要用星号（*）替换的特殊字符。默认值为空。
maxKeepingInvalidMessageDays	这表示保留无效邮件的最大天数。默认值：30（天）

限制

名称识别范围：仅识别数据库中姓名（包括名字、姓氏、机场、城市和国家/地区）的精确匹配项并进行标记化。不会检测到变体或拼写错误。
名称检测中的误报：由于名称数量众多，一些非名称词可能会被错误地识别为名称。
重叠的姓名类别：某些姓名可以属于多个类别（例如，“Georgia” 和 “Chad” 可以是名字、姓氏或国家/地区名称）。标记化取决于数据库中的类别，并遵循以下顺序：名字 >姓氏 > 机场名称 > 城市名称 > 国家名称。