Vorverarbeitung von Daten
Diese Funktion stellt sicher, dass vertrauliche Daten auf der Clientseite verarbeitet werden, bevor sie an den Datensee übertragen werden, und schützt sie so vor der Offenlegung durch unbefugte externe Entitäten.
Um die besten Ergebnisse beim maschinellen Lernen (ML) bei der automatischen Identifizierung von Agentenprozessen zu erzielen, lassen Sie diese Funktion deaktiviert (Standardeinstellung). Dadurch kann das ML mehr Daten analysieren, was zu einer besseren automatischen Prozessanalyse führt. Aktivieren Sie diese Funktion nur, wenn Sie die Daten in der Data Lake-Datenbank hashen oder maskieren müssen.
-
Gehen Sie auf Ihrem Clientsystem zu %appdata%\\Nice_Systems\\CXDiscovery und öffnen Sie die Datei CXDClientConfig.json.
-
Um diese Funktion zu aktivieren, fügen Sie den folgenden Konfigurationsabschnitt unter DataCollection in der Datei CXDClientConfig.json hinzu. Setzen Sie die Eigenschaft PreProcessing "enabled" auf true, um die Vorverarbeitung zu aktivieren.
"Vorverarbeitung":
{
"aktiviert": "wahr",
"emailToken": "_email_",
"phoneNumberToken": "_Telefon_",
"dateTimeToken": "_Datum/Uhrzeit_",
"IPToken": "_ip_",
"FirstNameToken": "_Vorname_",
"SurnameToken": "_Nachname_",
"AirportToken": "_Flughafen_",
"CityToken": "_Stadt_",
"CountryToken": "_Land_",
"alphanumericToken": "_alphanumerisch_",
"numericToken": "_num_",
"customCharacterTokens": "",
"maxKeepingInvalidMessageDays": "30"
}
Damit diese Funktion ordnungsgemäß funktioniert, stellen Sie sicher, dass die Eigenschaft DataCollection in der DateiCXDClientConfig.jsonaktiviert ist. Alle Attribute sind optional und verwenden ihre Standardwerte, wenn sie nicht angegeben werden.
Mit jedem Attribut können Sie anpassen, wie vertrauliche oder strukturierte Daten in Ihrer Clientkonfiguration dargestellt oder verwaltet werden.Zum Beispiel:
Eingabetext: John Doe, dessen E-Mail-Adresse john.doe@example.com und Telefonnummer +1-555-1234 lautet, lebt in New York, USA.
Nach der Verallgemeinerung:
Eingabetext: _name_, dessen E-Mail-Adresse _email_ und dessen Telefonnummer _phone_number_ist, lebt in _city_, _country_.
-
Maskierung der Daten: Alle Daten außer den oben angegebenen Schlüsselwörtern werden maskiert. Beispiel:
Vor dem Maskieren:
Eingabetext: _name_, dessen E-Mail-Adresse _email_ und Telefonnummer _phone_number_ ist, lebt in _city_, _country_.
Nach dem Maskieren:
Maskierter Eingabetext: _Name_, CCCC CCCCC CC _E-Mail_ CCC CCCCC CCCCC CC _Telefonnummer_, CCCCC CC _Stadt_, _Land_
-
Hashing der Daten: Alle Daten außer den oben angegebenen Schlüsselwörtern werden gehasht und diesen Feldern zugewiesen:
-
controlIdentifierHashed
-
textHashed
-
processTitleHashed
Beispiel:
Vor dem Hashing:
_name_, dessen E-Mail-Adresse _email_ und Telefonnummer _phone_number_ist, lebt in _city_, _country_
Nach dem Hashing:
_name_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_email_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_phone_n Nummer_98698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_Stadt_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_Land_
-
In der folgenden Tabelle werden die Konfigurationsattribute beschrieben.
Attribut |
Beschreibung |
---|---|
ermöglicht |
Dieses Attribut bestimmt, ob die Vorverarbeitungsfunktion aktiviert oder deaktiviert ist. |
E-Mail-Token |
Dies ist der Platzhalter für E-Mail-Adressen in Nachrichten. Standardwert: _email_ |
phoneNumberToken |
Dies ist der Platzhalter für Telefonnummern in Nachrichten. Standardwert: _phone_ |
Datum/Uhrzeit-Token |
Dies ist der Platzhalter für Datums- und Zeitwerte. Standardwert: _datetime_ |
IPToken |
Dies ist der Platzhalter für IP-Adressen. Standardwert: _ip_ |
VornameToken |
Dies ist der Platzhalter für Vornamen in Nachrichten. Standardwert: _firstname_ |
NachnameToken |
Dies ist der Platzhalter für Nachnamen (Nachnamen) in Nachrichten. Standardwert: _surname_ |
Flughafentoken |
Dies ist der Platzhalter für Flughafennamen oder -codes. Standardwert: _airport_ |
StadtToken |
Dies ist der Platzhalter für Städtenamen. Standardwert: _city_ |
Ländertoken |
Dies ist der Platzhalter für Ländernamen. Standardwert: _country_ |
alphanumerisches Token |
Dies ist der Platzhalter für alphanumerische Zeichenfolgen. Standardwert: _alphanumerisch_ |
numerisches Token |
Dies ist der Platzhalter für numerische Werte. Standardwert: _num_ |
benutzerdefinierteCharacterTokens | Dies gibt Sonderzeichen an, die Sie während der Vorverarbeitung durch ein Sternchen (*) ersetzen möchten. Der Standardwert ist leer. |
maxKeepingInvalidMessageDays |
Dies gibt die maximale Anzahl von Tagen an, die ungültige Nachrichten aufbewahrt werden. Standardwert: 30 (Tage) |
Einschränkungen
-
Umfang der Namenserkennung: Nur exakte Übereinstimmungen von Namen (einschließlich Vornamen, Nachnamen, Flughäfen, Städten und Ländern) in der Datenbank werden erkannt und mit Token versehen. Abweichungen oder Rechtschreibfehler werden nicht erkannt.
-
Falsch-Positive bei der Namenserkennung: Aufgrund der großen Anzahl an Namen können einige Wörter, die keine Namen sind, fälschlicherweise als Namen erkannt werden.
-
Überlappende Namenskategorien: Bestimmte Namen können mehreren Kategorien angehören (z. B. können „Georgien“ und „Tschad“ Vornamen, Nachnamen oder Ländernamen sein). Die Tokenisierung hängt von der Kategorie in der Datenbank ab und folgt dieser Reihenfolge: Vorname > Nachname > Flughafenname > Städtename > Ländername.