データの前処理
この機能により、機密データはデータレイクに送信される前にクライアント側で処理され、権限のない外部エンティティへの露出から保護されます。
機械学習(ML)によるエージェントプロセスの自動識別に最適な結果を得るには、この機能をオフのままにします(デフォルト設定)。 これにより、ML はより多くのデータを分析できるようになり、自動プロセス分析が向上します。 この機能は、Data Lake データベース内のデータをハッシュまたはマスクする必要がある場合にのみ有効にします。
-
クライアントシステムで、%appdata%\Nice_Systems\CXDiscoveryに移動し、CXDClientConfig.jsonファイルを開きます。
-
この機能を有効にするには、CXDClientConfig.json ファイルの DataCollection の下に次の構成セクションを追加します。 前処理を有効にするには、PreProcessing "enabled" プロパティを true に設定します
"前処理":
{
"enabled": "true"、
"emailToken": "_email_"、
"phoneNumberToken": "_phone_",
"dateTimeToken": "_datetime_",
"IPToken": "_ip_"、
"FirstNameToken": "_名_",
"姓トークン": "_姓_",
"AirportToken": "_airport_",
"CityToken": "_city_",
"CountryToken": "_country_",
"英数字トークン": "_英数字_",
"numericToken": "_num_",
"customCharacterTokens": "",
"maxKeepingInvalidMessageDays": "30"
}
この機能を正しく機能させるには、CXDClientConfig.json ファイルでDataCollectionプロパティが有効になっていることを確認します。 すべての属性はオプションであり、指定されていない場合はデフォルト値を使用します。
各属性を使用すると、クライアント構成で機密データや構造化データをどのように表示または管理するかをカスタマイズできます。例:
テキストを入力:ジョン・ドウ、メールアドレスは john.doe@example.com、電話番号は+1-555-1234、米国ニューヨーク在住。
一般化後:
テキストを入力: _name_、メールアドレスは _email_、電話番号は_phone_number_で _city_, _country_に住んでいます。
-
データのマスキング:上記のキーワードを除くすべてのデータがマスクされます。 例:
マスキング前:
テキストを入力: _name_は、電子メールが_email_、電話番号が_phone_number_で、_city_、_country_に住んでいます。
マスキング後:
マスクされたテキストを入力: _name_, CCCC CCCCC _email_ CCC CCCCC CCCCC _phone_number_, CCCCC CC _city_, _country_
-
データのハッシュ化:上記のキーワードを除くすべてのデータがハッシュ化され、次のフィールドに割り当てられます。
-
controlIdentifierハッシュ
-
テキストハッシュ
-
processTitleHashed(プロセスタイトルハッシュ)
例:
ハッシュ化前:
_name_、メールアドレスはemail_、電話番号は_phone_number_で、住んでいる住所は_city_、_country_です
ハッシュ後:
_name_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_email_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_phone_number_98 698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_city_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_country_
-
次の表では、構成属性について説明します。
属性 |
説明 |
---|---|
有効になっています |
この属性は、前処理機能が有効か無効かを決定します。 |
メールトークン |
これは、メッセージ内のメールアドレスのプレースホルダーです。 デフォルト値: _email_ |
phoneNumberトークン |
これは、メッセージ内の電話番号のプレースホルダーです。 デフォルト値: _phone_ |
dateTimeトークン |
これは、日付と時刻の値のプレースホルダーです。 デフォルト値: _datetime_ |
IPToken |
これは IP アドレスのプレースホルダーです。 デフォルト値: _ip_ |
ファーストネームトークン |
これは、メッセージ内の名のプレースホルダーです。 デフォルト値: _firstname_ |
姓トークン |
これは、メッセージ内の姓(姓)のプレースホルダーです。 デフォルト値:_姓_ |
空港トークン |
これは、空港名または空港コードのプレースホルダーです。 デフォルト値: _airport_ |
シティトークン |
これは、都市名のプレースホルダーです。 デフォルト値: _city_ |
国トークン |
これは国名のプレースホルダーです。 デフォルト値: _country_ |
英数字トークン |
これは英数字文字列のプレースホルダーです。 デフォルト値: _alphanumeric_ |
数値トークン |
これは、数値のプレースホルダーです。 デフォルト値: _num_ |
customCharacterトークン | これは、前処理中にアスタリスク (*) で置き換える特殊文字を指定します。 デフォルト値は空です。 |
maxKeepingInvalidMessageDays |
これは、無効なメッセージを保持する最大日数を示します。 デフォルト値:30(日) |
制限事項
-
名前認識範囲:データベース内の名前(名、姓、空港、都市、国を含む)の完全一致のみが認識され、トークン化されます。 誤字脱字やスペルミスは検出されません。
-
名前検出の誤検出: 名前の量が多いため、名前以外の単語が名前として誤って識別される可能性があります。
-
重複する名前のカテゴリ:特定の名前は複数のカテゴリに属することができます(たとえば、「ジョージア」と「チャド」は名、姓、または国名にすることができます)。 トークン化はデータベース内のカテゴリによって異なり、名>姓>空港名>都市名>国名の順になります。