데이터 전처리

이 기능은 민감한 데이터가 데이터 레이크로 전송되기 전에 클라이언트 측에서 처리되도록 보장하여 권한이 없는 외부 기관에 노출되는 것을 방지합니다.

자동 에이전트 프로세스 식별을 통한 최상의 머신 러닝(ML) 결과를 얻으려면 이 기능을 꺼 두세요(기본 설정). 이를 통해 ML은 더 많은 데이터를 분석할 수 있어 더 나은 자동 프로세스 분석이 가능합니다. 데이터 레이크 데이터베이스의 데이터를 해시하거나 마스킹해야 하는 경우에만 이 기능을 활성화하세요.

클라이언트 시스템에서 %appdata%\Nice_Systems\CXDiscovery로 이동하여 CXDClientConfig.json 파일을 엽니다.
이 기능을 활성화하려면 CXDClientConfig.json 파일의 DataCollection 아래에 다음 구성 섹션을 추가하세요. 전처리를 활성화하려면 PreProcessing "enabled" 속성을 true로 설정합니다.

"전처리":

{

"활성화됨": "참",

"emailToken": "_이메일_",

"phoneNumberToken": "_phone_",

"dateTimeToken": "_날짜시간_",

"IP 토큰": "_ip_",

"FirstNameToken": "_firstname_",

"성 토큰": "_성_",

"AirportToken": "_공항_",

"시티토큰": "_시티_",

"CountryToken": "_country_",

"alphanumericToken": "_alphanumeric_",

"숫자 토큰": "_num_",

"customCharacterTokens": "",

"maxKeepingInvalidMessageDays": "30"

}

이 기능이 제대로 작동하려면 CXDClientConfig.json 파일에서DataCollection속성이 활성화되어 있는지 확인하세요. 모든 속성은 선택 사항이며 지정하지 않으면 기본값이 사용됩니다.

각 속성을 사용하면 클라이언트 구성에서 민감하거나 구조화된 데이터가 표현되거나 관리되는 방식을 사용자 정의할 수 있습니다.

예:

입력 텍스트: John Doe는 이메일 주소 john.doe@example.com, 전화번호 +1-555-1234를 가지고 있으며 미국 뉴욕에 거주합니다.

일반화 후:

입력 텍스트: _name_, 이메일 주소는 _email_이고 전화번호는 _phone_number_이며,_country_, _city_에 거주합니다.
데이터 마스킹: 위에 지정된 키워드를 제외한 모든 데이터가 마스킹됩니다. 예:

마스킹 전:

입력 텍스트: _name_은 이메일이 _email_이고 전화번호가 _phone_number_이며 _city_, _country_에 거주합니다.

마스킹 후:

마스크된 입력 텍스트: _이름_, CCCC CCCCC CC _이메일_ CCC CCCCC CCCCC CC _전화번호_, CCCCC CC _도시_, _국가_
데이터 해싱: 위에 지정된 키워드를 제외한 모든 데이터는 해시되어 다음 필드에 할당됩니다.
- 해시된 제어 식별자
- 텍스트해시됨
- 프로세스 제목 해시됨
예:

해싱 전:

_name_의 이메일 주소는 _email_이고 전화번호는 _phone_number_이며,_country_의 _city_에 거주합니다.

해싱 후:

_이름_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_이메일_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_전화번호_n umber_98698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_도시_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_국가_

아래 표에서는 구성 속성을 설명합니다.

속성	설명
활성화됨	이 속성은 전처리 기능이 활성화되어 있는지 비활성화되어 있는지를 결정합니다. 기본적으로false(비활성화)로 설정됩니다. 이 기능을 활성화하면 아래 언급된 processTitle, url, textMasked, controlIdentifier의 민감한 데이터 필드가 구성된 토큰으로 바뀝니다.
이메일 토큰	이것은 메시지의 이메일 주소를 위한 자리 표시자입니다. 기본값: _email_
전화번호 토큰	이것은 메시지의 전화번호를 위한 자리표시자입니다. 기본값: _phone_
날짜시간토큰	이는 날짜 및 시간 값의 자리 표시자입니다. 기본값: _datetime_
IP토큰	이는 IP 주소의 자리 표시자입니다. 기본값: _ip_
FirstNameToken	이것은 메시지에서 이름을 입력하기 위한 자리 표시자입니다. 기본값: _firstname_
성 토큰	이것은 메시지에서 성(姓)을 나타내는 자리 표시자입니다. 기본값: _성_
에어포트토큰	이는 공항 이름이나 코드의 자리 표시자입니다. 기본값: _공항_
시티토큰	이것은 도시 이름의 자리 표시자입니다. 기본값: _city_
컨트리토큰	이는 국가 이름의 자리 표시자입니다. 기본값: _country_
영숫자 토큰	이는 영숫자 문자열의 자리 표시자입니다. 기본값: _영숫자_
숫자 토큰	이는 숫자 값의 자리 표시자입니다. 기본값: _num_
사용자 정의 캐릭터 토큰	이는 전처리 중에 별표(*)로 바꾸려는 특수 문자를 지정합니다. 기본값은 비어 있습니다.
최대유효메시지유지일수	이는 유효하지 않은 메시지를 보관하는 최대 일수를 나타냅니다. 기본값: 30(일)

제한 사항

이름 인식 범위: 데이터베이스에 있는 이름(성, 이름, 공항, 도시, 국가 포함)과 정확히 일치하는 항목만 인식되고 토큰화됩니다. 변형이나 철자 오류는 감지되지 않습니다.
이름 감지에서의 거짓 긍정: 이름의 양이 많기 때문에 이름이 아닌 일부 단어가 이름으로 잘못 식별될 수 있습니다.
겹치는 이름 범주: 특정 이름은 여러 범주에 속할 수 있습니다(예: "조지아"와 "차드"는 이름, 성 또는 국가 이름이 될 수 있음). 토큰화는 데이터베이스의 범주에 따라 달라지며 다음 순서를 따릅니다. 이름 > 성 > 공항 이름 > 도시 이름 > 국가 이름.