データの前処理

この機能により、機密データはデータレイクに送信される前にクライアント側で処理され、権限のない外部エンティティへの露出から保護されます。

機械学習(ML)によるエージェントプロセスの自動識別に最適な結果を得るには、この機能をオフのままにします(デフォルト設定)。 これにより、ML はより多くのデータを分析できるようになり、自動プロセス分析が向上します。 この機能は、Data Lake データベース内のデータをハッシュまたはマスクする必要がある場合にのみ有効にします。

  1. クライアントシステムで、%appdata%\Nice_Systems\CXDiscoveryに移動し、CXDClientConfig.jsonファイルを開きます。

  2. この機能を有効にするには、CXDClientConfig.json ファイルの DataCollection の下に次の構成セクションを追加します。 前処理を有効にするには、PreProcessing "enabled" プロパティを true に設定します

    "前処理":

    {

    "enabled": "true"、

    "emailToken": "_email_"、

    "phoneNumberToken": "_phone_",

    "dateTimeToken": "_datetime_",

    "IPToken": "_ip_"、

    "FirstNameToken": "_名_",

    "姓トークン": "_姓_",

    "AirportToken": "_airport_",

    "CityToken": "_city_",

    "CountryToken": "_country_",

    "英数字トークン": "_英数字_",

    "numericToken": "_num_",

    "customCharacterTokens": "",

    "maxKeepingInvalidMessageDays": "30"

    }

    この機能を正しく機能させるには、CXDClientConfig.json ファイルでDataCollectionプロパティが有効になっていることを確認します。 すべての属性はオプションであり、指定されていない場合はデフォルト値を使用します。

    各属性を使用すると、クライアント構成で機密データや構造化データをどのように表示または管理するかをカスタマイズできます。

    例:

    テキストを入力:ジョン・ドウ、メールアドレスは john.doe@example.com、電話番号は+1-555-1234、米国ニューヨーク在住。

    一般化後:

    テキストを入力: _name_、メールアドレスは _email_、電話番号は_phone_number_ _city_, _country_に住んでいます。

  3. データのマスキング:上記のキーワードを除くすべてのデータがマスクされます。 例:

    マスキング前:

    テキストを入力: _name_は、電子メールが_email_、電話番号が_phone_number_で、_city_、_country_に住んでいます。

    マスキング後:

    マスクされたテキストを入力: _name_, CCCC CCCCC _email_ CCC CCCCC CCCCC _phone_number_, CCCCC CC _city_, _country_

  4. データのハッシュ化:上記のキーワードを除くすべてのデータがハッシュ化され、次のフィールドに割り当てられます。

    • controlIdentifierハッシュ

    • テキストハッシュ

    • processTitleHashed(プロセスタイトルハッシュ)

    例:

    ハッシュ化前:

    _name_、メールアドレスはemail_、電話番号は_phone_number_で、住んでいる住所は_city__country_です

    ハッシュ後:

    _name_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_email_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_phone_number_98 698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_city_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_country_

次の表では、構成属性について説明します。

属性

説明

有効になっています

この属性は、前処理機能が有効か無効かを決定します。
デフォルトでは、false(無効) に設定されています。 有効にすると、後述の processTitle、url、textMasked、controlIdentifier の機密データフィールドが、設定されたトークンに置き換えられます。

メールトークン

これは、メッセージ内のメールアドレスのプレースホルダーです。

デフォルト値: _email_

phoneNumberトークン

これは、メッセージ内の電話番号のプレースホルダーです。

デフォルト値: _phone_

dateTimeトークン

これは、日付と時刻の値のプレースホルダーです。

デフォルト値: _datetime_

IPToken

これは IP アドレスのプレースホルダーです。

デフォルト値: _ip_

ファーストネームトークン

これは、メッセージ内の名のプレースホルダーです。

デフォルト値: _firstname_

姓トークン

これは、メッセージ内の姓(姓)のプレースホルダーです。

デフォルト値:_姓_

空港トークン

これは、空港名または空港コードのプレースホルダーです。

デフォルト値: _airport_

シティトークン

これは、都市名のプレースホルダーです。

デフォルト値: _city_

国トークン

これは国名のプレースホルダーです。

デフォルト値: _country_

英数字トークン

これは英数字文字列のプレースホルダーです。

デフォルト値: _alphanumeric_

数値トークン

これは、数値のプレースホルダーです。

デフォルト値: _num_

customCharacterトークン これは、前処理中にアスタリスク (*) で置き換える特殊文字を指定します。 デフォルト値は空です。
maxKeepingInvalidMessageDays

これは、無効なメッセージを保持する最大日数を示します。

デフォルト値:30(日)

制限事項

  • 名前認識範囲:データベース内の名前(名、姓、空港、都市、国を含む)の完全一致のみが認識され、トークン化されます。 誤字脱字やスペルミスは検出されません。

  • 名前検出の誤検出: 名前の量が多いため、名前以外の単語が名前として誤って識別される可能性があります。

  • 重複する名前のカテゴリ:特定の名前は複数のカテゴリに属することができます(たとえば、「ジョージア」と「チャド」は名、姓、または国名にすることができます)。 トークン化はデータベース内のカテゴリによって異なり、名>姓>空港名>都市名>国名の順になります。