Voorverwerking van gegevens
Deze functie zorgt ervoor dat gevoelige gegevens aan de clientzijde worden verwerkt voordat ze naar het data lake worden verzonden. Zo worden de gegevens beschermd tegen blootstelling aan ongeautoriseerde externe instanties.
Voor de beste resultaten met Machine Learning (ML) bij automatische identificatie van agentprocessen moet u deze functie uitgeschakeld houden (standaardinstelling). Hierdoor kan ML meer data analyseren, wat resulteert in betere automatische procesanalyses. Schakel deze functie alleen in als u de gegevens in de data lake-database moet hashen of maskeren.
-
Ga op uw clientsysteem naar %appdata%\\Nice_Systems\\CXDiscovery en open het bestand CXDClientConfig.json.
-
Om deze functie in te schakelen, voegt u de volgende configuratiesectie toe onder DataCollection in het bestand CXDClientConfig.json. Stel de eigenschap PreProcessing "enabled" in op true om preprocessing in te schakelen
"Voorverwerking":
{
"ingeschakeld": "waar",
"emailToken": "_e-mail_",
"telefoonNummerToken": "_telefoon_",
"dateTimeToken": "_datumtijd_",
"IPToken": "_ip_",
"VoornaamToken": "_voornaam_",
"AchternaamToken": "_achternaam_",
"AirportToken": "_luchthaven_",
"CityToken": "_stad_",
"LandToken": "_land_",
"alfanumeriekeToken": "_alfanumeriek_",
"numeriekToken": "_num_",
"aangepasteKarakterTokens": "",
"maxKeepingInvalidMessageDays": "30"
}
Om deze functie goed te laten werken, moet u ervoor zorgen dat de eigenschap DataCollection is ingeschakeld in het bestandCXDClientConfig.json. Alle kenmerken zijn optioneel en gebruiken hun standaardwaarden als ze niet worden opgegeven.
Met elk kenmerk kunt u aanpassen hoe gevoelige of gestructureerde gegevens worden weergegeven of beheerd in uw clientconfiguratie.Voorbeeld:
Invoertekst: John Doe, e-mailadres john.doe@example.com en telefoonnummer +1-555-1234, woont in New York, VS.
Na generalisatie:
Invoertekst: _naam_, met e-mailadres _e-mail_ en telefoonnummer _telefoonnummer_, woont in _stad_, _land_.
-
De gegevens maskeren: Alle gegevens, behalve de hierboven gespecificeerde trefwoorden, worden gemaskeerd. Bijvoorbeeld:
Voor het maskeren:
Invoertekst: _name_, met e-mailadres _email_ en telefoonnummer _phone_number_, woont in _city_, _country_.
Na het maskeren:
Gemaskeerde invoertekst: _naam_, CCCC CCCCC CC _e-mail_ CCC CCCCC CCCCC CC _telefoonnummer_, CCCCC CC _stad_, _land_
-
Hashing van de gegevens: Alle gegevens, behalve de hierboven gespecificeerde trefwoorden, worden gehasht en toegewezen aan deze velden:
-
controlIdentifierHashed
-
tekstHashed
-
procesTitelHashed
Bijvoorbeeld:
Vóór het hashen:
_name_, wiens e-mailadres _email_ is en telefoonnummer _phone_number_, woont in _city_, _country_
Na het hashen:
_naam_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_e-mailadres_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_telefoon_n umber_98698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_stad_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_land_
-
De onderstaande tabel beschrijft de configuratiekenmerken.
Attribuut |
Beschrijving |
---|---|
ingeschakeld |
Dit kenmerk bepaalt of de voorverwerkingsfunctie is in- of uitgeschakeld. |
e-mailToken |
Dit is de tijdelijke aanduiding voor e-mailadressen in berichten. Standaardwaarde: _email_ |
telefoonnummerToken |
Dit is de tijdelijke aanduiding voor telefoonnummers in berichten. Standaardwaarde: _phone_ |
datumTijdToken |
Dit is de tijdelijke aanduiding voor datum- en tijdwaarden. Standaardwaarde: _datetime_ |
IPToken |
Dit is de tijdelijke aanduiding voor IP-adressen. Standaardwaarde: _ip_ |
VoornaamToken |
Dit is de tijdelijke aanduiding voor voornamen in berichten. Standaardwaarde: _voornaam_ |
AchternaamToken |
Dit is de tijdelijke aanduiding voor achternamen in berichten. Standaardwaarde: _achternaam_ |
LuchthavenToken |
Dit is de tijdelijke aanduiding voor luchthavennamen of -codes. Standaardwaarde: _luchthaven_ |
CityToken |
Dit is de tijdelijke aanduiding voor stadsnamen. Standaardwaarde: _stad_ |
LandToken |
Dit is de tijdelijke aanduiding voor landnamen. Standaardwaarde: _land_ |
alfanumeriek token |
Dit is de tijdelijke aanduiding voor alfanumerieke tekenreeksen. Standaardwaarde: _alfanumeriek_ |
numeriekToken |
Dit is de tijdelijke aanduiding voor numerieke waarden. Standaardwaarde: _num_ |
aangepasteKarakterTokens | Hiermee geeft u de speciale tekens op die u tijdens de voorverwerking wilt vervangen door een asterisk (*). De standaardwaarde is leeg. |
maxKeepingInvalidMessageDays |
Dit geeft het maximale aantal dagen aan dat ongeldige berichten bewaard moeten blijven. Standaardwaarde: 30 (dagen) |
Beperkingen
-
Naamherkenningsbereik: Alleen exacte overeenkomsten van namen (inclusief voornamen, achternamen, luchthavens, steden en landen) in de database worden herkend en getokeniseerd. Variaties of spelfouten worden niet gedetecteerd.
-
Vals-positieve resultaten bij naamdetectie: Vanwege het grote aantal namen kunnen sommige niet-naamwoorden ten onrechte als namen worden geïdentificeerd.
-
Overlappende naamcategorieën: Bepaalde namen kunnen tot meerdere categorieën behoren (bijvoorbeeld "Georgia" en "Chad" kunnen voornamen, achternamen of landnamen zijn). Tokenisatie is afhankelijk van de categorie in de database en verloopt volgens deze volgorde: Voornaam > Achternaam > Luchthavennaam > Plaatsnaam > Landnaam.