数据预处理
此功能可确保敏感数据在传输到数据湖之前在客户端进行处理,从而防止其暴露给未经授权的外部实体。
为了在自动代理进程识别中获得最佳机器学习 (ML) 结果,请关闭此功能(默认设置)。 这允许 ML 分析更多数据,从而更好地进行自动流程分析。 仅当必须对数据湖数据库中的数据进行哈希处理或屏蔽时,才启用此功能。
-
在客户端系统上,转到 %appdata%\Nice_Systems\CXDiscovery然后打开 CXDClientConfig.json 文件。
-
要启用此功能,请在 CXDClientConfig.json 文件中的 DataCollection 下添加以下配置部分。 将 PreProcessing “enabled”属性设置为 true以启用预处理
“预处理”:
{
“enabled”: “true”, /启用
“emailToken”: “_email_”, //电子邮件令牌
“phoneNumberToken”: “_phone_”, ///手机编号
“dateTimeToken”: “_datetime_”, //日期时间_
“IPToken”: “_ip_”, /
“FirstNameToken”: “_firstname_”, ////
“SurnameToken”: “_surname_”, //姓氏_
“AirportToken”: “_airport_”, //
“CityToken”: “_city_”, /
“国家/地区代币”: “_country_”,
“alphanumericToken”: “_alphanumeric_”, //字母数字令牌
“numericToken”: “_num_”, //数字令牌
“customCharacterTokens”: “”,
“maxKeepingInvalidMessageDays”: “30”
}
要使此功能正常运行,请确保在 CXDClientConfig.json 文件中启用DataCollection属性。 所有属性都是可选的,如果未指定,将使用其默认值。
每个属性都允许您自定义敏感或结构化数据在客户端配置中的表示或管理方式。例如:
输入文本:John Doe,电子邮件是 john.doe@example.com,电话号码是 +1-555-1234,住在美国纽约。
泛化后:
输入文本: _name_,其电子邮件是_email_,电话号码是 _phone_number_,居住地_city_, _country_。
-
屏蔽 data:除上述指定关键字外的所有数据都将被屏蔽。 例如:
蒙版前:
输入文本:_name_,电子邮件是 _email_,电话号码是 _phone_number_,住在 _city_, _country_。
遮罩后:
蒙面输入文本: _姓名_, CCCC CCCCC CC_电子邮件_ CCCC CCCCC CCCCC _phone_number_, CCCCC CC _city_, _country_
-
对数据进行哈希处理:除上述指定关键字之外的所有数据都将被哈希处理并分配给以下字段:
-
controlIdentifierHashed
-
文本哈希
-
processTitleHashed
例如:
哈希之前:
_name_,其电子邮件为_email_,电话号码为 _phone_number_,居住地_city_,_country_
哈希处理后:
_name_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_email_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_phone_number_98 698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_city_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_country_
-
下表描述了配置属性。
属性 |
说明 |
---|---|
已启用 |
此属性确定是启用还是禁用预处理功能。 |
电子邮件令牌 |
这是邮件中电子邮件地址的占位符。 默认值:_email_ |
phoneNumber令牌 |
这是消息中电话号码的占位符。 默认值:_phone_ |
dateTimeToken |
这是日期和时间值的占位符。 默认值:_datetime_ |
IPToken |
这是 IP 地址的占位符。 默认值:_ip_ |
名字令牌 |
这是消息中名字的占位符。 默认值:_firstname_ |
姓氏令牌 |
这是消息中姓氏(姓氏)的占位符。 默认值:_surname_ |
机场令牌 |
这是机场名称或代码的占位符。 默认值: _airport_ |
CityToken (城市令牌) |
这是城市名称的占位符。 默认值: _city_ |
国家代币 |
这是国家/地区名称的占位符。 默认值: _country_ |
alphanumericToken |
这是字母数字字符串的占位符。 默认值:_alphanumeric_ |
numericToken |
这是数值的占位符。 默认值:_num_ |
自定义角色令牌 | 这指定了在预处理期间要用星号 (*) 替换的特殊字符。 默认值为空。 |
maxKeepingInvalidMessageDays |
这表示保留无效邮件的最大天数。 默认值:30(天) |
限制
-
名称识别范围:仅识别数据库中姓名(包括名字、姓氏、机场、城市和国家/地区)的精确匹配项并进行标记化。 不会检测到变体或拼写错误。
-
名称检测中的误报:由于名称数量众多,一些非名称词可能会被错误地识别为名称。
-
重叠的姓名类别: 某些姓名可以属于多个类别(例如,“Georgia” 和 “Chad” 可以是名字、姓氏或国家/地区名称)。 标记化取决于数据库中的类别,并遵循以下顺序:名字 >姓氏 > 机场名称 > 城市名称 > 国家 名称。