데이터 전처리
이 기능은 민감한 데이터가 데이터 레이크로 전송되기 전에 클라이언트 측에서 처리되도록 보장하여 권한이 없는 외부 기관에 노출되는 것을 방지합니다.
자동 에이전트 프로세스 식별을 통한 최상의 머신 러닝(ML) 결과를 얻으려면 이 기능을 꺼 두세요(기본 설정). 이를 통해 ML은 더 많은 데이터를 분석할 수 있어 더 나은 자동 프로세스 분석이 가능합니다. 데이터 레이크 데이터베이스의 데이터를 해시하거나 마스킹해야 하는 경우에만 이 기능을 활성화하세요.
-
클라이언트 시스템에서 %appdata%\Nice_Systems\CXDiscovery로 이동하여 CXDClientConfig.json 파일을 엽니다.
-
이 기능을 활성화하려면 CXDClientConfig.json 파일의 DataCollection 아래에 다음 구성 섹션을 추가하세요. 전처리를 활성화하려면 PreProcessing "enabled" 속성을 true로 설정합니다.
"전처리":
{
"활성화됨": "참",
"emailToken": "_이메일_",
"phoneNumberToken": "_phone_",
"dateTimeToken": "_날짜시간_",
"IP 토큰": "_ip_",
"FirstNameToken": "_firstname_",
"성 토큰": "_성_",
"AirportToken": "_공항_",
"시티토큰": "_시티_",
"CountryToken": "_country_",
"alphanumericToken": "_alphanumeric_",
"숫자 토큰": "_num_",
"customCharacterTokens": "",
"maxKeepingInvalidMessageDays": "30"
}
이 기능이 제대로 작동하려면 CXDClientConfig.json 파일에서DataCollection속성이 활성화되어 있는지 확인하세요. 모든 속성은 선택 사항이며 지정하지 않으면 기본값이 사용됩니다.
각 속성을 사용하면 클라이언트 구성에서 민감하거나 구조화된 데이터가 표현되거나 관리되는 방식을 사용자 정의할 수 있습니다.예:
입력 텍스트: John Doe는 이메일 주소 john.doe@example.com, 전화번호 +1-555-1234를 가지고 있으며 미국 뉴욕에 거주합니다.
일반화 후:
입력 텍스트: _name_, 이메일 주소는 _email_이고 전화번호는 _phone_number_이며,_country_, _city_에 거주합니다.
-
데이터 마스킹: 위에 지정된 키워드를 제외한 모든 데이터가 마스킹됩니다. 예:
마스킹 전:
입력 텍스트: _name_은 이메일이 _email_이고 전화번호가 _phone_number_이며 _city_, _country_에 거주합니다.
마스킹 후:
마스크된 입력 텍스트: _이름_, CCCC CCCCC CC _이메일_ CCC CCCCC CCCCC CC _전화번호_, CCCCC CC _도시_, _국가_
-
데이터 해싱: 위에 지정된 키워드를 제외한 모든 데이터는 해시되어 다음 필드에 할당됩니다.
-
해시된 제어 식별자
-
텍스트해시됨
-
프로세스 제목 해시됨
예:
해싱 전:
_name_의 이메일 주소는 _email_이고 전화번호는 _phone_number_이며,_country_의 _city_에 거주합니다.
해싱 후:
_이름_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_이메일_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_전화번호_n umber_98698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_도시_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_국가_
-
아래 표에서는 구성 속성을 설명합니다.
속성 |
설명 |
---|---|
활성화됨 |
이 속성은 전처리 기능이 활성화되어 있는지 비활성화되어 있는지를 결정합니다. |
이메일 토큰 |
이것은 메시지의 이메일 주소를 위한 자리 표시자입니다. 기본값: _email_ |
전화번호 토큰 |
이것은 메시지의 전화번호를 위한 자리표시자입니다. 기본값: _phone_ |
날짜시간토큰 |
이는 날짜 및 시간 값의 자리 표시자입니다. 기본값: _datetime_ |
IP토큰 |
이는 IP 주소의 자리 표시자입니다. 기본값: _ip_ |
FirstNameToken |
이것은 메시지에서 이름을 입력하기 위한 자리 표시자입니다. 기본값: _firstname_ |
성 토큰 |
이것은 메시지에서 성(姓)을 나타내는 자리 표시자입니다. 기본값: _성_ |
에어포트토큰 |
이는 공항 이름이나 코드의 자리 표시자입니다. 기본값: _공항_ |
시티토큰 |
이것은 도시 이름의 자리 표시자입니다. 기본값: _city_ |
컨트리토큰 |
이는 국가 이름의 자리 표시자입니다. 기본값: _country_ |
영숫자 토큰 |
이는 영숫자 문자열의 자리 표시자입니다. 기본값: _영숫자_ |
숫자 토큰 |
이는 숫자 값의 자리 표시자입니다. 기본값: _num_ |
사용자 정의 캐릭터 토큰 | 이는 전처리 중에 별표(*)로 바꾸려는 특수 문자를 지정합니다. 기본값은 비어 있습니다. |
최대유효메시지유지일수 |
이는 유효하지 않은 메시지를 보관하는 최대 일수를 나타냅니다. 기본값: 30(일) |
제한 사항
-
이름 인식 범위: 데이터베이스에 있는 이름(성, 이름, 공항, 도시, 국가 포함)과 정확히 일치하는 항목만 인식되고 토큰화됩니다. 변형이나 철자 오류는 감지되지 않습니다.
-
이름 감지에서의 거짓 긍정: 이름의 양이 많기 때문에 이름이 아닌 일부 단어가 이름으로 잘못 식별될 수 있습니다.
-
겹치는 이름 범주: 특정 이름은 여러 범주에 속할 수 있습니다(예: "조지아"와 "차드"는 이름, 성 또는 국가 이름이 될 수 있음). 토큰화는 데이터베이스의 범주에 따라 달라지며 다음 순서를 따릅니다. 이름 > 성 > 공항 이름 > 도시 이름 > 국가 이름.